Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More

要約

大規模な言語モデル(LLM)は、重要な情報の正確な取得に苦しむことが発見されています。
これに対処するために、マスク強化された自己回帰予測(MEAP)を提案します。これは、マスクされた言語モデリング(MLM)を次のトークン予測(NTP)にシームレスに統合して、後者のコンテキスト内検索機能を強化するシンプルで効果的なトレーニングパラダイムです。
具体的には、MEAPは最初に入力トークンのごく一部をランダムにマスクし、次にデコーダーのみの変圧器を使用して標準の次のトークン予測を自動再生的に直接実行します。
MEAPは、MLMの双方向の注意またはエンコーダーデコーダーアーキテクチャの必要性を排除し、トレーニング前または推論中に追加の計算オーバーヘッドを発生させません。
集中的な実験は、MEAPが主要な情報検索と長いコンテキスト推論のタスクでNTPを実質的に上回ることを示しています。
MEAPの利点は、監督された微調整にも及びます。そこでは、中間の紛失シナリオで顕著な利点を示し、NTPを11.77パーセントポイント上回ることができます。
私たちの分析は、MEAPの有効性が、マスクされていないトークンの縮小セットに集中することにより、より識別可能な注意スコアを促進する能力から生じることを示しています。
このメカニズムは、末梢コンテキストの影響を軽減しながら、タスク関連信号にモデルの焦点を向上させます。
これらの調査結果は、大規模な言語モデルの有望なトレーニングパラダイムとしてMEAPを位置付けています。

要約(オリジナル)

Large Language Models (LLMs) are discovered to suffer from accurately retrieving key information. To address this, we propose Mask-Enhanced Autoregressive Prediction (MEAP), a simple yet effective training paradigm that seamlessly integrates Masked Language Modeling (MLM) into Next-Token Prediction (NTP) to enhance the latter’s in-context retrieval capabilities. Specifically, MEAP first randomly masks a small fraction of input tokens and then directly performs the standard next-token prediction autoregressive using a decoder-only Transformer. MEAP eliminates the need for bidirectional attention or encoder-decoder architectures for MLM, incurring no additional computational overhead during pre-training or inference. Intensive experiments demonstrate that MEAP substantially outperforms NTP on key information retrieval and long-context reasoning tasks, while performing on par or better on commonsense reasoning tasks. The benefits of MEAP also extend to supervised fine-tuning, where it shows remarkable advantages in lost-in-the-middle scenarios, outperforming NTP by 11.77 percentage points. Our analysis indicates that MEAP’s effectiveness arises from its ability to promote more distinguishable attention scores by concentrating on a reduced set of non-masked tokens. This mechanism improves the model’s focus on task-relevant signals while mitigating the influence of peripheral context. These findings position MEAP as a promising training paradigm for large language models.

arxiv情報

著者 Xialie Zhuang,Zhikai Jia,Jianjin Li,Zhenyu Zhang,Li Shen,Zheng Cao,Shiwei Liu
発行日 2025-05-16 15:21:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク