要約
本論文では、大規模言語モデル(LLM)の注意配分に固有の波形パターンが、LLMを道具として利用するような、高度な文脈認識が要求されるタスクにおいて、LLMのパフォーマンスに大きく影響することを示す。具体的には、コンテキストの重要な情報が注意波形の谷に位置する場合、モデルによって見落とされる可能性があり、パフォーマンスの低下につながる。この問題に対処するため、我々はアテンションバケットと名付けた新しい推論手法を提案する。これはLLMが複数の並列プロセスを通して入力を処理することを可能にする。各プロセスは回転位置の埋め込みに異なる基本角度を利用し、それによってユニークな注意波形を作り出す。特定のプロセスの注意の谷を別のプロセスの注意のピークで補うことで、我々のアプローチはLLMの様々な文脈上の位置への認識を強化し、その結果、重要な情報を見落とすリスクを軽減する。最大のツール使用ベンチマークにおいて、我々の手法は7BモデルをGPT-4に匹敵する最先端の性能に引き上げる。また、他のベンチマークや、文脈の内容を完全に理解することが要求されるいくつかのRAGタスクにおいても、Attention Bucketsは顕著な性能向上を示した。
要約(オリジナル)
In this paper, we demonstrate that an inherent waveform pattern in the attention allocation of large language models (LLMs) significantly affects their performance in tasks demanding a high degree of context awareness, such as utilizing LLMs for tool-use. Specifically, the crucial information in the context will be potentially overlooked by model when it is positioned in the trough zone of the attention waveform, leading to decreased performance. To address this issue, we propose a novel inference method named Attention Buckets. It allows LLMs to process their input through multiple parallel processes. Each process utilizes a distinct base angle for the rotary position embedding, thereby creating a unique attention waveform. By compensating an attention trough of a particular process with an attention peak of another process, our approach enhances LLM’s awareness to various contextual positions, thus mitigating the risk of overlooking crucial information. In the largest tool-use benchmark, our method elevates a 7B model to achieve state-of-the-art performance, comparable to that of GPT-4. On other benchmarks and some RAG tasks, which also demand a thorough understanding of contextual content, Attention Buckets also exhibited notable enhancements in performance.
arxiv情報
著者 | Yuhan Chen,Ang Lv,Ting-En Lin,Changyu Chen,Yuchuan Wu,Fei Huang,Yongbin Li,Rui Yan |
発行日 | 2024-03-01 07:56:37+00:00 |
arxivサイト | arxiv_id(pdf) |