SimRAG: Self-Improving Retrieval-Augmented Generation for Adapting Large Language Models to Specialized Domains

要約

検索拡張生成 (RAG) は、外部知識を統合することにより、大規模言語モデル (LLM) の質問応答 (QA) 能力を強化します。
ただし、汎用 RAG システムを科学や医学などの特殊な分野に適応させると、流通の変化やドメイン固有のデータへのアクセスが制限されるため、特有の課題が生じます。
これに取り組むために、LLM にドメイン適応のための質問応答と質問生成の共同機能を装備する自己トレーニング アプローチである SimRAG を提案します。
私たちの方法では、まず、指示に従って、質問に答えて、検索関連のデータに基づいて LLM を微調整します。
次に、同じ LLM に、高品質の合成例を保持するための追加のフィルタリング戦略を使用して、ラベルのないコーパスからさまざまなドメイン関連の質問を生成するよう促します。
これらの合成例を活用することで、LLM はドメイン固有の RAG タスクのパフォーマンスを向上させることができます。
2 つのバックボーン サイズと 3 つのドメインにわたる 11 のデータセットでの実験では、SimRAG がベースラインを 1.2\%–8.6\% 上回るパフォーマンスを示しています。

要約(オリジナル)

Retrieval-augmented generation (RAG) enhances the question-answering (QA) abilities of large language models (LLMs) by integrating external knowledge. However, adapting general-purpose RAG systems to specialized fields such as science and medicine poses unique challenges due to distribution shifts and limited access to domain-specific data. To tackle this, we propose SimRAG, a self-training approach that equips the LLM with joint capabilities of question answering and question generation for domain adaptation. Our method first fine-tunes the LLM on instruction-following, question-answering, and search-related data. Then, it prompts the same LLM to generate diverse domain-relevant questions from unlabeled corpora, with an additional filtering strategy to retain high-quality synthetic examples. By leveraging these synthetic examples, the LLM can improve their performance on domain-specific RAG tasks. Experiments on 11 datasets, spanning two backbone sizes and three domains, demonstrate that SimRAG outperforms baselines by 1.2\%–8.6\%.

arxiv情報

著者 Ran Xu,Hui Liu,Sreyashi Nag,Zhenwei Dai,Yaochen Xie,Xianfeng Tang,Chen Luo,Yang Li,Joyce C. Ho,Carl Yang,Qi He
発行日 2024-10-23 15:24:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク