要約
この作業により、微調整せずに長いコンテキストを処理できる LLM の固有の能力が引き出しられます。
トレーニング中のトレーニング シーケンスの長さに制限があるため、推論のための長い入力シーケンスに対する大規模言語モデル (LLM) の適用が制限される可能性があります。
この研究では、既存の LLM 自体が長いコンテキストを処理するための固有の機能を備えていると主張します。
この議論に基づいて、LLM のコンテキスト ウィンドウを独自に拡張して、固有の能力を完全に活用することを提案します。LLM の長いコンテキスト処理の可能性を刺激するために、自己拡張を提案します。
基本的な考え方は、グループ レベルと近隣レベルの 2 レベルの注意情報を構築することです。
2 つのレベルは元のモデルの自己注意によって計算されます。つまり、提案されたモデルはトレーニングを必要としません。
提案された方法はわずか 4 行のコード変更で、微調整を行わずに既存の LLM のコンテキスト ウィンドウを簡単に拡張できます。
我々は包括的な実験を実施し、その結果、提案された方法が既存のLLMのコンテキストウィンドウの長さを効果的に拡張できることが示されました。
要約(オリジナル)
This work elicits LLMs’ inherent ability to handle long contexts without fine-tuning. The limited length of the training sequence during training may limit the application of Large Language Models (LLMs) on long input sequences for inference. In this work, we argue that existing LLMs themselves have inherent capabilities for handling long contexts. Based on this argument, we suggest extending LLMs’ context window by themselves to fully utilize the inherent ability.We propose Self-Extend to stimulate LLMs’ long context handling potential. The basic idea is to construct bi-level attention information: the group level and the neighbor level. The two levels are computed by the original model’s self-attention, which means the proposed does not require any training. With only four lines of code modification, the proposed method can effortlessly extend existing LLMs’ context window without any fine-tuning. We conduct comprehensive experiments and the results show that the proposed method can effectively extend existing LLMs’ context window’s length.
arxiv情報
著者 | Hongye Jin,Xiaotian Han,Jingfeng Yang,Zhimeng Jiang,Zirui Liu,Chia-Yuan Chang,Huiyuan Chen,Xia Hu |
発行日 | 2024-01-02 18:30:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google