Eliciting In-context Retrieval and Reasoning for Long-context Large Language Models

要約

ロングコンテキスト言語モデル (LCLM) の最近の進歩により、パイプラインが簡素化されて検索拡張生成 (RAG) が変革されることが期待されています。
LCLM は、拡張されたコンテキスト ウィンドウを使用して、ナレッジ ベース全体を処理し、検索と推論を直接実行できます。この機能は、コンテキスト内検索と推論 (ICR^2) として定義されています。
ただし、LOFT などの既存のベンチマークは、過度に単純化されたコンテキストを提供することにより、LCLM のパフォーマンスを過大評価することがよくあります。
これに対処するために、強力な検索機能で検索された交絡的なパッセージを含めることにより、より現実的なシナリオで LCLM を評価するベンチマークである ICR^2 を導入します。
次に、LCLM のパフォーマンスを向上させるための 3 つの方法を提案します。(1) 検索してから生成する微調整、(2) デコード中にアテンション ヘッドを使用して長いコンテキストをフィルタリングおよびノイズ除去する検索アテンション プロービング、および (3)
ジェネレーションヘッドと並んで共同回収ヘッドトレーニング。
LOFT と ICR^2 に関する 5 つのよく知られた LCLM の評価では、Mistral-7B に適用された最良のアプローチにより大幅な改善が見られました。LOFT では完全一致で +17 ポイントと +15 ポイント、ICR^2 では +13 ポイントと +2 ポイントでした。
、バニラ RAG および監視付き微調整とそれぞれ比較しました。
はるかに小型のモデルであるにもかかわらず、ほとんどのタスクで GPT-4-Turbo よりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Recent advancements in long-context language models (LCLMs) promise to transform Retrieval-Augmented Generation (RAG) by simplifying pipelines. With their expanded context windows, LCLMs can process entire knowledge bases and perform retrieval and reasoning directly — a capability we define as In-Context Retrieval and Reasoning (ICR^2). However, existing benchmarks like LOFT often overestimate LCLM performance by providing overly simplified contexts. To address this, we introduce ICR^2, a benchmark that evaluates LCLMs in more realistic scenarios by including confounding passages retrieved with strong retrievers. We then propose three methods to enhance LCLM performance: (1) retrieve-then-generate fine-tuning, (2) retrieval-attention-probing, which uses attention heads to filter and de-noise long contexts during decoding, and (3) joint retrieval head training alongside the generation head. Our evaluation of five well-known LCLMs on LOFT and ICR^2 demonstrates significant gains with our best approach applied to Mistral-7B: +17 and +15 points by Exact Match on LOFT, and +13 and +2 points on ICR^2, compared to vanilla RAG and supervised fine-tuning, respectively. It even outperforms GPT-4-Turbo on most tasks despite being a much smaller model.

arxiv情報

著者 Yifu Qiu,Varun Embar,Yizhe Zhang,Navdeep Jaitly,Shay B. Cohen,Benjamin Han
発行日 2025-01-14 16:38:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク