要約
現代言語モデル (LM) の成功の多くは、Generative Pre-Trained Transformer (GPT) モデルのバックボーンであるマスクされた因果的注意によるものです。
GPT はユーザー プロンプト全体を一度に処理できますが、因果関係マスキングはすべての入力トークンに段階的に適用され、生成プロセスを模倣します。
これにより、モデルが出力トークンを生成する前に入力プロンプトを処理し、内部表現を生成する最初の「事前入力」フェーズ中に不必要な制約が課せられます。
この研究では、プレフィルフェーズで既知のブロック構造に基づいてアテンションがマスクされ、その後は従来のトークンごとの自己回帰プロセスが続きます。
たとえば、一般的なチャット プロンプトでは、システム プロンプトが 1 つのブロックとして扱われ、ユーザー プロンプトが次のブロックとして扱われます。
これらのそれぞれは、各ブロック内の最初のトークンが非因果的な方法で後続のトークンにアクセスできるように、マスキングの目的で 1 つのユニットとして扱われます。
そして、従来の因果関係に基づいて模範解答を生成する。
このセグメントごとのスキームでは、追加の計算オーバーヘッドは発生しません。
Llama や Qwen などのモデルに統合すると、常に最先端のパフォーマンスが達成されます。
要約(オリジナル)
Modern Language Models (LMs) owe much of their success to masked causal attention, the backbone of Generative Pre-Trained Transformer (GPT) models. Although GPTs can process the entire user prompt at once, the causal masking is applied to all input tokens step-by-step, mimicking the generation process. This imposes an unnecessary constraint during the initial ‘prefill’ phase when the model processes the input prompt and generates the internal representations before producing any output tokens. In this work, attention is masked based on the known block structure at the prefill phase, followed by the conventional token-by-token autoregressive process after that. For example, in a typical chat prompt, the system prompt is treated as one block, and the user prompt as the next one. Each of these is treated as a unit for the purpose of masking, such that the first tokens in each block can access the subsequent tokens in a non-causal manner. Then, the model answer is generated in the conventional causal manner. This Segment-by-Segment scheme entails no additional computational overhead. When integrating it into models such as Llama and Qwen, state-of-the-art performance is consistently achieved.
arxiv情報
著者 | Shahar Katz,Liran Ringel,Yaniv Romano,Lior Wolf |
発行日 | 2024-12-24 15:18:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google