要約
現代の大規模言語モデル (LLM) の多くは長い入力を処理できますが、中間喪失の課題として知られる、長いコンテキスト内の情報を完全に活用するのに依然として苦労しています。
私たちは、この問題は、ロングコンテキストのトレーニング中の明示的な監督が不十分であり、ロングコンテキストにおけるどの位置にも重要な情報が含まれる可能性があることを強調していないことに起因すると仮説を立てています。
この直観に基づいて、私たちの研究は、途中で迷った問題を克服するための純粋にデータ駆動型のソリューションである情報集約型 (IN2) トレーニングを提示します。
具体的には、IN2 トレーニングでは、合成された長いコンテキストの質問と回答のデータセットを利用します。このデータセットでは、回答には、(1) 合成された長いコンテキスト (4K ~ 32K トークン) 内の短いセグメント (約 128 個のトークン) に関するきめ細かい情報認識が必要です。
2) 2 つ以上の短いセグメントからの情報の統合と推論。
この情報集約型トレーニングをミストラル 7B に適用することにより、FILM-7B (FIL1-in-the-Middle) を提示します。
長いコンテキストを利用する FILM-7B の能力を徹底的に評価するために、さまざまなコンテキスト スタイル (ドキュメント、コード、構造化データ コンテキスト) と情報検索パターン (前方、後方、双方向の検索) を包含する 3 つの調査タスクを設計します。
。
調査結果は、FILM-7B が 32K コンテキスト ウィンドウ内のさまざまな位置から情報を確実に取得できることを示しています。
これらの精査タスクを超えて、FILM-7B は現実世界のロングコンテキスト タスクのパフォーマンスを大幅に向上させます (例: NarrativeQA の F1 スコア 23.5->26.9)。一方、ショートコンテキスト タスクでは同等のパフォーマンス (例: 59.3->59.2) を維持します。
MMLU での精度)。
Github リンク: https://github.com/microsoft/FILM。
要約(オリジナル)
While many contemporary large language models (LLMs) can process lengthy input, they still struggle to fully utilize information within the long context, known as the lost-in-the-middle challenge. We hypothesize that it stems from insufficient explicit supervision during the long-context training, which fails to emphasize that any position in a long context can hold crucial information. Based on this intuition, our study presents information-intensive (IN2) training, a purely data-driven solution to overcome lost-in-the-middle. Specifically, IN2 training leverages a synthesized long-context question-answer dataset, where the answer requires (1) fine-grained information awareness on a short segment (~128 tokens) within a synthesized long context (4K-32K tokens), and (2) the integration and reasoning of information from two or more short segments. Through applying this information-intensive training on Mistral-7B, we present FILM-7B (FILl-in-the-Middle). To thoroughly assess the ability of FILM-7B for utilizing long contexts, we design three probing tasks that encompass various context styles (document, code, and structured-data context) and information retrieval patterns (forward, backward, and bi-directional retrieval). The probing results demonstrate that FILM-7B can robustly retrieve information from different positions in its 32K context window. Beyond these probing tasks, FILM-7B significantly improves the performance on real-world long-context tasks (e.g., 23.5->26.9 F1 score on NarrativeQA), while maintaining a comparable performance on short-context tasks (e.g., 59.3->59.2 accuracy on MMLU). Github Link: https://github.com/microsoft/FILM.
arxiv情報
著者 | Shengnan An,Zexiong Ma,Zeqi Lin,Nanning Zheng,Jian-Guang Lou |
発行日 | 2024-04-26 11:15:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google