要約
大規模言語モデル (LLM) は通常、検索拡張生成 (RAG) の取得者からの上位 k コンテキストを利用します。
この研究では、新しい命令微調整フレームワーク RankRAG を提案します。これは、RAG でのコンテキストのランキングと応答生成の 2 つの目的のために単一の LLM を命令調整します。
特に、命令調整された LLM は、ごく一部のランキング データをトレーニング ブレンドに追加することで驚くほどうまく機能し、大量のランキング データのみを対象に微調整された同じ LLM を含む、既存のエキスパート ランキング モデルよりも優れたパフォーマンスを発揮します。
世代については、GPT-4-0613、GPT-4-turbo-2024-0409、最先端のパフォーマンスを備えたオープンソース モデルである ChatQA-1.5 など、多くの強力なベースラインとモデルを比較します。
RAG ベンチマーク。
具体的には、Llama3-RankRAG は、9 つの知識集約型ベンチマークで Llama3-ChatQA-1.5 および GPT-4 モデルを大幅に上回っています。
さらに、生物医学データの微調整を指示することなく、生物医学領域の 5 つの RAG ベンチマークで GPT-4 と同等のパフォーマンスを示し、新しい領域への一般化に対する優れた能力を実証しています。
要約(オリジナル)
Large language models (LLMs) typically utilize the top-k contexts from a retriever in retrieval-augmented generation (RAG). In this work, we propose a novel instruction fine-tuning framework RankRAG, which instruction-tunes a single LLM for the dual purpose of context ranking and answer generation in RAG. In particular, the instruction-tuned LLMs work surprisingly well by adding a small fraction of ranking data into the training blend, and outperform existing expert ranking models, including the same LLM exclusively fine-tuned on a large amount of ranking data. For generation, we compare our model with many strong baselines, including GPT-4-0613, GPT-4-turbo-2024-0409, and ChatQA-1.5, an open-sourced model with the state-of-the-art performance on RAG benchmarks. Specifically, our Llama3-RankRAG significantly outperforms Llama3-ChatQA-1.5 and GPT-4 models on nine knowledge-intensive benchmarks. In addition, it also performs comparably to GPT-4 on five RAG benchmarks in the biomedical domain without instruction fine-tuning on biomedical data, demonstrating its superb capability for generalization to new domains.
arxiv情報
著者 | Yue Yu,Wei Ping,Zihan Liu,Boxin Wang,Jiaxuan You,Chao Zhang,Mohammad Shoeybi,Bryan Catanzaro |
発行日 | 2024-07-02 17:59:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google