Unveiling Simplicities of Attention: Adaptive Long-Context Head Identification

要約

長いコンテキストを処理する能力は、多くの自然言語処理タスクにとって重要ですが、それは依然として重要な課題です。
注意メカニズムの効率を向上させることには大きな進歩がありましたが、長いコンテキスト設定で注意がどのように機能するかを理解することには依然としてギャップがあります。
このホワイトペーパーでは、特定のヘッドは一貫してローカル情報のみに注意しているが、他の人はクエリに応じてローカルと長期の情報に参加することとの間で揺れ動くことを観察します。
これは疑問を提起します:次のトークンを正確に予測するために、どのヘッドが長いコンテキスト情報を必要とするかを特定できますか?
ローカルキーのみを使用して、どのヘッドが長いコンテキスト処理に重要であるかを予測することが可能であることを実証します。
ここでの核となるアイデアは、2番目のモーメント近似を介して長いコンテキストスコアの単純なモデルを活用することです。
これらの発見は、長いシーケンスのコンテキストでの注意の単純な特性を明らかにし、効率の潜在的に大きな利益への扉を開きます。

要約(オリジナル)

The ability to process long contexts is crucial for many natural language processing tasks, yet it remains a significant challenge. While substantial progress has been made in enhancing the efficiency of attention mechanisms, there is still a gap in understanding how attention heads function in long-context settings. In this paper, we observe that while certain heads consistently attend to local information only, others swing between attending to local and long-context information depending on the query. This raises the question: can we identify which heads require long-context information to predict the next token accurately? We demonstrate that it’s possible to predict which heads are crucial for long-context processing using only local keys. The core idea here is to exploit a simple model for the long-context scores via second moment approximations. These findings unveil simple properties of attention in the context of long sequences, and open the door to potentially significant gains in efficiency.

arxiv情報

著者 Konstantin Donhauser,Charles Arnal,Mohammad Pezeshki,Vivien Cabannes,David Lopez-Paz,Kartik Ahuja
発行日 2025-03-05 16:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク