要約
トランスフォーマーには教師あり学習アルゴリズムとして機能する能力があります。ラベル付きトレーニング (「コンテキスト内」) サンプルのセットとラベルなしテスト サンプルを同じ次元のベクトルの入力シーケンスに適切にエンコードすることにより、トランスフォーマーのフォワード パスは
ラベルのないテスト例の予測を生成します。
最近の一連の研究では、線形回帰タスク用に線形変換器がランダムなインスタンスで事前トレーニングされると、これらのトレーニングされた変換器は通常の最小二乗法と同様のアルゴリズムを使用して予測を行うことが示されています。
この研究では、ランダムな線形分類タスクで訓練された線形変換器の動作を調査します。
勾配降下法の暗黙的な正則化の分析を通じて、トレーニング済みの変換器がテスト時に適切に一般化するには、どれくらいの数の事前トレーニング タスクとコンテキスト内のサンプルが必要であるかを特徴付けます。
さらに、一部の設定では、これらの訓練されたトランスフォーマーが「インコンテキストでの良性の過剰適合」を示す可能性があることを示します。インコンテキストのサンプルがラベル反転ノイズによって破損した場合、トランスフォーマーはすべてのインコンテキストのサンプル(ノイズのあるラベルを持つサンプルを含む)を記憶します。
それでも、クリーンなテスト例に対してほぼ最適に一般化されます。
要約(オリジナル)
Transformers have the capacity to act as supervised learning algorithms: by properly encoding a set of labeled training (‘in-context’) examples and an unlabeled test example into an input sequence of vectors of the same dimension, the forward pass of the transformer can produce predictions for that unlabeled test example. A line of recent work has shown that when linear transformers are pre-trained on random instances for linear regression tasks, these trained transformers make predictions using an algorithm similar to that of ordinary least squares. In this work, we investigate the behavior of linear transformers trained on random linear classification tasks. Via an analysis of the implicit regularization of gradient descent, we characterize how many pre-training tasks and in-context examples are needed for the trained transformer to generalize well at test-time. We further show that in some settings, these trained transformers can exhibit ‘benign overfitting in-context’: when in-context examples are corrupted by label flipping noise, the transformer memorizes all of its in-context examples (including those with noisy labels) yet still generalizes near-optimally for clean test examples.
arxiv情報
著者 | Spencer Frei,Gal Vardi |
発行日 | 2024-10-02 17:30:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google