Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use

要約

大規模言語モデル (LLM) の最近の進歩により、ツール エージェントとしての機能とスキルが大幅に拡張されました。
この論文では、モデルの注意配分の波形パターンがツールの使用パフォーマンスに影響を及ぼし、重要な情報の位置が谷ゾーンに達するとパフォーマンスが低下すると主張します。
この問題に対処するために、私たちはアテンション バケットという名前の新しい推論方法を提案します。
このアプローチにより、LLM は並列プロセスを実行することでコンテキストを処理できるようになり、各プロセスはアテンション波形を形成する独自の RoPE 角度ベースを特徴とします。
アテンション バケットを使用すると、特定のプロセスの注意の谷を別の実行の注意のピークで補うことができるため、LLM が注意の谷内に存在する重要な情報を見逃すリスクが軽減されます。
広く認知されているツール使用ベンチマークに関する私たちの広範な実験は、私たちのアプローチの有効性を実証しており、Attending Buckets によって強化された 7B パラメーターのオープンソース モデルが GPT-4 と同等の SOTA パフォーマンスを達成しています。

要約(オリジナル)

Recent advancements in large language models (LLMs) have significantly expanded their functionality and skills as tool agents. In this paper, we argue that a waveform pattern in the model’s attention allocation has an impact on the tool use performance, which degrades when the position of essential information hits the trough zone. To address this issue, we propose a novel inference method named Attention Buckets. This approach enables LLMs to handle context by conducting parallel processes, each featuring a unique RoPE angle base that shapes the attention waveform. Attention Buckets ensures that an attention trough of a particular process can be compensated with an attention peak of another run, reducing the risk of the LLM missing essential information residing within the attention trough. Our extensive experiments on the widely recognized tool use benchmark demonstrate the efficacy of our approach, where a 7B-parameter open-source model enhanced by Attention Buckets achieves SOTA performance on par with GPT-4.

arxiv情報

著者 Yuhan Chen,Ang Lv,Ting-En Lin,Changyu Chen,Yuchuan Wu,Fei Huang,Yongbin Li,Rui Yan
発行日 2023-12-07 17:24:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク