KV Shifting Attention Enhances Language Modeling

要約

現在の大規模な言語モデルは主に、優れたインコンテキスト学習 (ICL) 機能を備えたデコード専用の構造変換器に基づいています。
一般に、その ICL 機能の重要な基盤は誘導ヘッド機構であると考えられており、これには少なくとも 2 つの層の注意が必要です。
モデルの誘導機能をより効率的に実装するために、誘導ヘッドのメカニズムを再検討し、KV シフト アテンションを提案しました。
KV が注意を移すことで、誘導ヘッド機構の深さと幅に関するモデルの要件が軽減されることを理論的に証明します。
私たちの実験結果は、KV による注意の移動が誘導ヘッドと言語モデリングの学習に有益であり、おもちゃのモデルから 10 を超える B パラメータを持つ事前トレーニング モデルへのパフォーマンスの向上またはより高速な収束につながることを示しています。

要約(オリジナル)

The current large language models are mainly based on decode-only structure transformers, which have great in-context learning (ICL) capabilities. It is generally believed that the important foundation of its ICL capability is the induction heads mechanism, which requires at least two layers attention. In order to more efficiently implement the ability of the model’s induction, we revisit the induction heads mechanism and proposed a KV shifting attention. We theoretically prove that the KV shifting attention reducing the model’s requirements for the depth and width of the induction heads mechanism. Our experimental results demonstrate that KV shifting attention is beneficial to learning induction heads and language modeling, which lead to better performance or faster convergence from toy models to the pre-training models with more than 10 B parameters.

arxiv情報

著者 Mingyu Xu,Wei Cheng,Bingning Wang,Weipeng Chen
発行日 2024-12-05 12:19:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク