要約
大規模言語モデル (LLM) は、その優れた一般化機能と堅牢な生成機能により、現実世界のさまざまなシナリオにますます適用されています。
ただし、「途中で失われる」とも呼ばれる位置バイアスが見られます。この現象は、長いコンテキストのシナリオで特に顕著であり、プロンプトのさまざまな位置に重要な情報が配置されると、精度に大きな影響を与える可能性があることを示しています。
この論文では、まず位置バイアスのミクロレベルの発現を調査し、注意の重みが位置バイアスのミクロレベルの表現であると結論付けています。
さらに、位置の埋め込みに加えて、因果的注意マスクも位置固有の隠れ状態を作成することによって位置のバイアスに寄与していることも特定されています。
これらの洞察に基づいて、この位置隠れ状態をスケーリングすることによって位置バイアスを軽減する方法を提案します。
RoPE モデル、コンテキスト ウィンドウ拡張モデル、Alibi モデルなどのさまざまなモデルを使用した、NaturalQuestions マルチドキュメント QA、KV 取得、LongBench、およびタイムライン並べ替えタスクの実験では、アプローチの有効性と一般化可能性が実証されています。
私たちの方法では、隠れ状態の 1 つの次元を変更するだけで、パフォーマンスを最大 15.2% 向上させることができます。
私たちのコードは https://aka.ms/PositionalHidden で入手できます。
要約(オリジナル)
Large Language Models (LLMs) are increasingly applied in various real-world scenarios due to their excellent generalization capabilities and robust generative abilities. However, they exhibit position bias, also known as ‘lost in the middle’, a phenomenon that is especially pronounced in long-context scenarios, which indicates the placement of the key information in different positions of a prompt can significantly affect accuracy. This paper first explores the micro-level manifestations of position bias, concluding that attention weights are a micro-level expression of position bias. It further identifies that, in addition to position embeddings, causal attention mask also contributes to position bias by creating position-specific hidden states. Based on these insights, we propose a method to mitigate position bias by scaling this positional hidden states. Experiments on the NaturalQuestions Multi-document QA, KV retrieval, LongBench and timeline reorder tasks, using various models including RoPE models, context windowextended models, and Alibi models, demonstrate the effectiveness and generalizability of our approach. Our method can improve performance by up to 15.2% by modifying just one dimension of hidden states. Our code is available at https://aka.ms/PositionalHidden.
arxiv情報
著者 | Yijiong Yu,Huiqiang Jiang,Xufang Luo,Qianhui Wu,Chin-Yew Lin,Dongsheng Li,Yuqing Yang,Yongfeng Huang,Lili Qiu |
発行日 | 2024-06-04 17:55:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google