ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

要約

この研究では、128K コンテキスト ウィンドウを備えた Llama 3.0 ベースのモデルである ChatQA 2 を紹介します。これは、長いコンテキストの理解において、オープンソース LLM と主要な独自モデル (GPT-4-Turbo など) との間のギャップを埋めるように設計されています。
検索拡張生成 (RAG) 機能。
これら 2 つの機能は、LLM が 1 つのプロンプトに収まらない大量の情報を処理するために不可欠であり、下流のタスクと計算予算に応じて相互に補完します。
Llama3-70B ベースのコンテキスト ウィンドウを 8K から 128K トークンに拡張するための詳細な継続トレーニング レシピと、モデルの命令追従、RAG パフォーマンス、および長期コンテキスト理解機能を強化する 3 段階の命令調整プロセスを紹介します。

私たちの結果は、Llama3-ChatQA-2-70B モデルが、GPT-4-Turbo-2024-04-09、Qwen2-72B-Instruct、Llama3.1-70B などの既存のほとんどの最先端モデルよりも優れていることを示しています。
– 100K トークンを超える超長いタスク、および 4K コンテキスト ウィンドウのみを使用した RAG ベンチマークで指示し、さまざまなシーケンス長にわたって強力な長いコンテキスト機能を示します。
さらに、同じ最先端のロングコンテキスト LLM を使用した、直接ロングコンテキスト ソリューションと RAG ソリューション間の広範な比較も提供します。
興味深いことに、RAG を使用した強力なロングコンテキスト LLM は、より多くのチャンクを取得するとパフォーマンスが向上することがわかりました。
トップ k チャンクの大規模なセットを使用することで、RAG は、同じ最先端のロングコンテキスト モデル (Llama3-ChatQA-2-70B や Qwen2-72B-Instruct など) を使用した直接的なロングコンテキスト ソリューションよりも常に優れたパフォーマンスを発揮します。
32K ベンチマークと実際の 128K タスクの両方。
この分野の研究を進めるために、モデルの重み、トレーニング データ、評価セットアップをコミュニティ向けにオープンソース化しました: https://chatqa2-project.github.io/

要約(オリジナル)

In this work, we introduce ChatQA 2, an Llama 3.0-based model with a 128K context window, designed to bridge the gap between open-source LLMs and leading proprietary models (e.g., GPT-4-Turbo) in long-context understanding and retrieval-augmented generation (RAG) capabilities. These two capabilities are essential for LLMs to process large volumes of information that cannot fit into a single prompt and are complementary to each other, depending on the downstream tasks and computational budgets. We present a detailed continued training recipe to extend the context window of Llama3-70B-base from 8K to 128K tokens, along with a three-stage instruction tuning process to enhance the model’s instruction-following, RAG performance, and long-context understanding capabilities. Our results demonstrate that the Llama3-ChatQA-2-70B model outperforms most existing state-of-the-art models, including GPT-4-Turbo-2024-04-09, Qwen2-72B-Instruct, and Llama3.1-70B-Instruct, on ultra-long tasks beyond 100K tokens, as well as on the RAG benchmark using only a 4K context window, showing the strong long context capability across varying sequence lengths. We further provide extensive comparisons between direct long-context and RAG solutions using the same state-of-the-art long-context LLMs. Interestingly, we find that the performance of strong long-context LLMs using RAG improves when retrieving a larger number of chunks. With a large set of top-k chunks, RAG consistently outperforms direct long-context solution using the same state-of-the-art long-context models (e.g., Llama3-ChatQA-2-70B and Qwen2-72B-Instruct) on both 32K benchmarks and real-world 128K tasks. To advance research in this field, we open-sourced the model weights, training data, and the evaluation setup for the for the community: https://chatqa2-project.github.io/

arxiv情報

著者 Peng Xu,Wei Ping,Xianchao Wu,Chejian Xu,Zihan Liu,Mohammad Shoeybi,Bryan Catanzaro
発行日 2024-09-09 06:19:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク