Statistical Foundations of Prior-Data Fitted Networks

要約

事前データ適合ネットワーク (PFN) は、機械学習の新しいパラダイムとして最近提案されました。
観察されたトレーニング セットに合わせてネットワークをトレーニングする代わりに、さまざまなタスクからの小規模なシミュレートされたトレーニング セットで固定モデルがオフラインで事前トレーニングされます。
次に、事前トレーニングされたモデルを使用して、任意のサイズと分布を持つ新しいトレーニング セットのコンテキスト内のクラス確率を推測します。
経験的に、PFN は、事前トレーニングで使用されたものと同様のサイズのタスクで最先端のパフォーマンスを達成します。
驚くべきことに、推論中により大きなデータセットが渡されると、その精度がさらに向上します。
この記事では、PFN の理論的基礎を確立し、PFN の動作を制御する統計メカニズムを明らかにします。
PFN はベイジアンのアイデアによって動機付けられていますが、事前に調整されているがトレーニングされていない予測子としての PFN の純粋な頻度論的な解釈によって、PFN の動作が説明されます。
予測子の分散は、個々のトレーニング サンプルに対する感度が低下する場合には消滅し、バイアスはテスト特徴の周囲に適切に局在化されている場合にのみ消滅します。
現在の PFN 実装で使用されているトランス アーキテクチャは、前者のみを保証します。
これらの発見は、好ましい経験的動作を備えたアーキテクチャを設計するのに役立つことが証明されるでしょう。

要約(オリジナル)

Prior-data fitted networks (PFNs) were recently proposed as a new paradigm for machine learning. Instead of training the network to an observed training set, a fixed model is pre-trained offline on small, simulated training sets from a variety of tasks. The pre-trained model is then used to infer class probabilities in-context on fresh training sets with arbitrary size and distribution. Empirically, PFNs achieve state-of-the-art performance on tasks with similar size to the ones used in pre-training. Surprisingly, their accuracy further improves when passed larger data sets during inference. This article establishes a theoretical foundation for PFNs and illuminates the statistical mechanisms governing their behavior. While PFNs are motivated by Bayesian ideas, a purely frequentistic interpretation of PFNs as pre-tuned, but untrained predictors explains their behavior. A predictor’s variance vanishes if its sensitivity to individual training samples does and the bias vanishes only if it is appropriately localized around the test feature. The transformer architecture used in current PFN implementations ensures only the former. These findings shall prove useful for designing architectures with favorable empirical behavior.

arxiv情報

著者 Thomas Nagler
発行日 2023-05-18 16:34:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク