要約
長いコンテキストの理解は、限られたコンテキストウィンドウのため、大規模な言語モデルでは依然として困難です。
このホワイトペーパーでは、長い入力に基づいてモデルパラメーターを動的に適応させることにより、任意の(ショートコンテキスト)LLMSの長いコンテキストパフォーマンスを改善できる長いコンテキストモデリングの新しいフレームワークであるLong Input Fine-Tuning(Lift)を紹介します。
重要なことに、コンテキストのウィンドウサイズを際限なく拡張してコンテキストでますます長い入力に対応するのではなく、パラメーターの長い入力を保存して吸収することを選択します。
モデルパラメーターへの長い入力を微調整することにより、Liftは、推論中にコンテキストで必要な情報が提供されていない場合でも、短いコンテキストLLMSが質問に答えることができます。
さらに、元のコンテキスト学習(ICL)機能を維持しながらリフトパフォーマンスを向上させるために、ゲートメモリを導入します。ゲートメモリは、長い入力暗記とICLのバランスを自動的にバランスさせる特殊な注意アダプターです。
私たちは、長い文脈の理解におけるリフトの強みと制限の包括的な分析を提供し、将来の研究のための貴重な方向性を提供します。
要約(オリジナル)
Long context understanding remains challenging for large language models due to their limited context windows. This paper presents Long Input Fine-Tuning (LIFT), a novel framework for long-context modeling that can improve the long-context performance of arbitrary (short-context) LLMs by dynamically adapting model parameters based on the long input. Importantly, LIFT, rather than endlessly extending the context window size to accommodate increasingly longer inputs in context, chooses to store and absorb the long input in parameter. By fine-tuning the long input into model parameters, LIFT allows short-context LLMs to answer questions even when the required information is not provided in the context during inference. Furthermore, to enhance LIFT performance while maintaining the original in-context learning (ICL) capabilities, we introduce Gated Memory, a specialized attention adapter that automatically balances long input memorization and ICL. We provide a comprehensive analysis of the strengths and limitations of LIFT on long context understanding, offering valuable directions for future research.
arxiv情報
著者 | Yansheng Mao,Yufei Xu,Jiaqi Li,Fanxu Meng,Haotong Yang,Zilong Zheng,Xiyuan Wang,Muhan Zhang |
発行日 | 2025-02-20 15:32:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google