要約
トランスフォーマーはインコンテキスト学習 (ICL) を示し、これらのモデルは追加のトレーニングなしでプロンプト内の例を使用して新しいタスクを解決します。
私たちの研究では、ICL の 2 つの主要なコンポーネントを特定して分析します。(1) コンテキスト内のサンプルの数が増加するにつれてモデルのパフォーマンスが向上するコンテキスト スケーリング、および (2) コンテキスト内のサンプルの数が増加するにつれてモデルのパフォーマンスが向上するタスク スケーリング。
トレーニング前のタスクが増加します。
トランスフォーマーはコンテキスト スケーリングとタスク スケーリングの両方が可能ですが、ベクトル化された入力を備えた標準的な多層パーセプトロン (MLP) はタスク スケーリングのみが可能なことを経験的に示しています。
トランスフォーマーがどのようにコンテキスト スケーリングを行うことができるかを理解するために、まず、キー、クエリ、値の重みを持たない、大幅に簡素化されたトランスフォーマー アーキテクチャを提案します。
線形回帰、教師と生徒の設定を含むさまざまな統計学習タスクにおいて、元の GPT-2 モデルと同等の ICL を実行することを示します。
さらに、単純化されたトランスフォーマーの単一ブロックは、MLP が後に続くデータ依存の特徴マップとして見ることができます。
この特徴マップ自体は、コンテキストのスケーリングは可能ですが、タスクのスケーリングはできない強力な予測子です。
この特徴マップの出力を MLP への入力としてベクトル化されたデータと連結すると、コンテキスト スケーリングとタスク スケーリングの両方が可能になることを経験的に示します。
この発見は、ICL のコンテキストとタスクのスケーリングを研究するための簡単な設定を提供します。
要約(オリジナル)
Transformers exhibit In-Context Learning (ICL), where these models solve new tasks by using examples in the prompt without additional training. In our work, we identify and analyze two key components of ICL: (1) context-scaling, where model performance improves as the number of in-context examples increases and (2) task-scaling, where model performance improves as the number of pre-training tasks increases. While transformers are capable of both context-scaling and task-scaling, we empirically show that standard Multi-Layer Perceptrons (MLPs) with vectorized input are only capable of task-scaling. To understand how transformers are capable of context-scaling, we first propose a significantly simplified transformer architecture without key, query, value weights. We show that it performs ICL comparably to the original GPT-2 model in various statistical learning tasks including linear regression, teacher-student settings. Furthermore, a single block of our simplified transformer can be viewed as data dependent feature map followed by an MLP. This feature map on its own is a powerful predictor that is capable of context-scaling but is not capable of task-scaling. We show empirically that concatenating the output of this feature map with vectorized data as an input to MLPs enables both context-scaling and task-scaling. This finding provides a simple setting to study context and task-scaling for ICL.
arxiv情報
著者 | Amirhesam Abedsoltan,Adityanarayanan Radhakrishnan,Jingfeng Wu,Mikhail Belkin |
発行日 | 2024-10-16 17:58:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google