要約
大規模言語モデル(LLM)は、長い入力文脈を処理するように特別に訓練されたとしても、入力の途中にある関連情報を捉えるのに苦労する。この現象はlost-in-the-middle問題として知られている。本研究では、3つの貢献を行う。第一に、この現象を引き起こす要因を理解することである。そうすることで、LLMの本質的な注意の偏りとロスト・イン・ザ・ミドルの関連性を確立する:LLMはU字型の注意バイアスを示し、入力の最初と最後にあるトークンは、その関連性にかかわらず、より高い注意を受ける。第二に、この位置の偏りを、found-in-the-middleという較正メカニズムによって緩和する。このメカニズムによって、文脈が途中にある場合でも、その関連性に応じて忠実に文脈に注目することができるようになる。第三に、found-in-the-middleは、長い文脈の中から関連する情報を探し出すパフォーマンスを向上させるだけでなく、最終的には、様々なタスクにおいて検索支援生成(RAG)のパフォーマンスを向上させ、既存の手法を最大15ポイント上回ることを示す。これらの発見は、LLMの注意の偏りとその潜在的な結果を理解する上で、将来の方向性を開くものである。
要約(オリジナル)
Large language models (LLMs), even when specifically trained to process long input contexts, struggle to capture relevant information located in the middle of their input. This phenomenon has been known as the lost-in-the-middle problem. In this work, we make three contributions. First, we set out to understand the factors that cause this phenomenon. In doing so, we establish a connection between lost-in-the-middle to LLMs’ intrinsic attention bias: LLMs exhibit a U-shaped attention bias where the tokens at the beginning and at the end of its input receive higher attention, regardless of their relevance. Second, we mitigate this positional bias through a calibration mechanism, found-in-the-middle, that allows the model to attend to contexts faithfully according to their relevance, even though when they are in the middle. Third, we show found-in-the-middle not only achieves better performance in locating relevant information within a long context, but also eventually leads to improved retrieval-augmented generation (RAG) performance across various tasks, outperforming existing methods by up to 15 percentage points. These findings open up future directions in understanding LLM attention bias and its potential consequences.
arxiv情報
著者 | Cheng-Yu Hsieh,Yung-Sung Chuang,Chun-Liang Li,Zifeng Wang,Long T. Le,Abhishek Kumar,James Glass,Alexander Ratner,Chen-Yu Lee,Ranjay Krishna,Tomas Pfister |
発行日 | 2024-07-03 17:40:00+00:00 |
arxivサイト | arxiv_id(pdf) |