要約
大規模な言語モデル(LLMS)は、前oraingと整列により顕著な能力を実証しています。
ただし、長いコンテキストアラインメントが不十分なため、長いコンテキストシナリオでは優れたショートコンテキストLLMSがパフォーマンスが低下する可能性があります。
このアライメントプロセスは、拡張されたコンテキストに対する人間の注釈の非実用性と、短いコンテキストパフォーマンスと長いコンテストのパフォーマンスのバランスをとることの難しさのために、依然として困難なままです。
これらの課題に対処するために、ショートコンテストの機能を内部的に転送することにより、ショートコンテキストLLMが自己進化できるようにするLONGPOを導入します。
LongPoは、LLMSを利用して、長いコンテキスト入力と圧縮された短いコンテキストの対応物を使用した同一の命令用に生成されたペアの応答を含む、自己生成された短い優先順位データから学習します。
この好みは、短いコンテキストアラインメント中に栽培されたLLMの能力と可能性を明らかにしています。
さらに、LongPoは、長いコンテキストアライメント中に短いコンテキストのパフォーマンス低下を緩和するために、短いKLから長いKL制約を組み込んでいます。
Mistral-7B-Instruct-V0.2に128Kから512Kコンテキストの長さに適用すると、LongPoはショートテキストのパフォーマンスを完全に保持し、長いコンテキストタスクとショートコンテキストの両方のタスクで素朴なSFTとDPOを大幅に上回ります。
具体的には、LongPoトレーニングを受けたモデルは、広範なLLMS(例:GPT-4-128K)に匹敵する、またはそれを超える長いコンテキストベンチマークで結果を達成できます。
私たちのコードは、https://github.com/damo-nlp-sg/longpoで入手できます。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable capabilities through pretraining and alignment. However, superior short-context LLMs may underperform in long-context scenarios due to insufficient long-context alignment. This alignment process remains challenging due to the impracticality of human annotation for extended contexts and the difficulty in balancing short- and long-context performance. To address these challenges, we introduce LongPO, that enables short-context LLMs to self-evolve to excel on long-context tasks by internally transferring short-context capabilities. LongPO harnesses LLMs to learn from self-generated short-to-long preference data, comprising paired responses generated for identical instructions with long-context inputs and their compressed short-context counterparts, respectively. This preference reveals capabilities and potentials of LLMs cultivated during short-context alignment that may be diminished in under-aligned long-context scenarios. Additionally, LongPO incorporates a short-to-long KL constraint to mitigate short-context performance decline during long-context alignment. When applied to Mistral-7B-Instruct-v0.2 from 128K to 512K context lengths, LongPO fully retains short-context performance and largely outperforms naive SFT and DPO in both long- and short-context tasks. Specifically, LongPO-trained models can achieve results on long-context benchmarks comparable to, or even surpassing, those of superior LLMs (e.g., GPT-4-128K) that involve extensive long-context annotation and larger parameter scales. Our code is available at https://github.com/DAMO-NLP-SG/LongPO.
arxiv情報
著者 | Guanzheng Chen,Xin Li,Michael Qizhe Shieh,Lidong Bing |
発行日 | 2025-02-20 09:16:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google