要約
LLM は反復と改善を続けていますが、ほとんどのオープンソース モデルのコンテキスト ウィンドウは依然として 4K 未満であり、長いコンテキストの問題を処理する能力が制限されています。
ロングコンテキスト チャット用の既存のオープンソース モデルのほとんどは、依然として満足のいく精度に欠けています。
この問題に対処するために、私はトレーニング データの観点からアプローチし、長いコンテキストを処理する能力のトレーニングには「長い」データではなく「効果的な」データが必要であることを理論的に証明します。
これに基づいて、私は「原文言い換え」タスクを使用することを提案し、低コストで効果的な方法で既存モデルのコンテキストウィンドウを 32k まで拡張することに成功し、複数文書 QA で非常に高い精度を達成し、既存のすべての QA を上回ります。
同じスケールのオープンソース モデル。
モデルとトレーニング データは、HuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k) および WiseModel(https://wisemodel.cn/models/yuyijiong/Qwen-) でオープンソース化されています。
14b-chat-yarn-32k)。
要約(オリジナル)
Although LLMs continue to iterate and improve, most open-source models still have a context window of no more than 4k, limiting their ability to handle long-context problems. Most existing open-source models for long-context chat still lack satisfactory accuracy. To address this issue, I approach it from the perspective of training data and theoretically prove that training the capability to handle long contexts requires ‘effective’ rather than ‘long’ data. Based on this, I propose using the ‘original text paraphrase’ task, and successfully extend the context window of the existing model to 32k by a low-cost and effective method, achieving extremely high accuracy in multi-document-QA and surpassing all existing open-source models of the same scale. The model and training data have been open-sourced on HuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k) and WiseModel(https://wisemodel.cn/models/yuyijiong/Qwen-14b-chat-yarn-32k).
arxiv情報
著者 | Yijiong Yu |
発行日 | 2023-12-20 14:57:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google