‘Paraphrasing The Original Text’ Makes High Accuracy Long-Context QA

要約

現在、ほとんどのオープンソース生成言語モデルのコンテキスト ウィンドウは 4K 未満であり、長いテキストに直面する場合の機能が制限されています。
これまでの多くの取り組みでは、モデルのコンテキスト ウィンドウを拡張することが試みられてきましたが、実際の効果は非常に限定的であることがわかっています。
この問題に対処するために、私たちはロングコンテキストトレーニングデータの有効性を理論的に分析し、ロングコンテキストトレーニングには単に「長い」データではなく「効果的な」データが必要であることを発見しましたが、これは以前の研究ではほとんど注目されていませんでした。
そこで、データの有効性を高めるために「原文言い換え」を追加することを提案します。
再細分化されたデータセットでトレーニングされたモデルは、優れたロングコンテキスト機能を獲得し、同等のスケールのモデルの中で複数ドキュメントの検索と QA タスクで最先端の精度を達成します。
モデルとトレーニング データは、HuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k) および WiseModel(https://wisemodel.cn/models/yuyijiong/Qwen-14b) で利用可能です。
-chat-yarn-32k)。

要約(オリジナル)

Most open-source generative language models currently have a context window of no more than 4k, limiting their ability when facing long text. Many previous efforts have tried to extend the context window of models, but their actual effects have been found to be very limited. To address this issue, we theoretically analyze the effectiveness of the long-context training data and find that long-context training requires ‘effective’ data rather than simply ‘long’ data, which is rarely noticed in previous studies. Thus, we propose adding ‘original text paraphrasing’ to enhance the effectiveness of the data. The model trained on our re-fined dataset obtains excellent long-context capabilities and achieves state-of-the-art accuracy on multi-document retrieval and QA tasks among models of comparable scales. The model and training data have been made available on HuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k) and WiseModel(https://wisemodel.cn/models/yuyijiong/Qwen-14b-chat-yarn-32k).

arxiv情報

著者 Yijiong Yu
発行日 2024-01-16 08:12:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク