Improving Retrieval-Augmented Generation in Medicine with Iterative Follow-up Questions

要約

大規模言語モデル(LLM)の創発的な能力は、医学的な問題を解決する上で大きな可能性を示している。LLMはかなりの医学知識を持つが、まだ幻覚を見ることがあり、知識の更新において柔軟性に欠ける。外部知識ベースを用いてLLMの医学的質問応答能力を強化するために、検索補強型生成(RAG)が提案されているが、複数回の情報探索が必要な複雑なケースでは、まだ失敗する可能性がある。このような問題に対処するために、我々は医学のための反復RAG(i-MedRAG)を提案する。i-MedRAGでは、LLMは以前の情報探索の試みに基づいて反復的にフォローアップの問い合わせを行うことができる。i-MedRAGの各反復において、フォローアップクエリはバニラRAGシステムによって回答され、それらはさらに次の反復におけるクエリ生成の指針として利用される。我々の実験では、i-MedRAGが、米国医師免許試験(USMLE)の臨床ビネットからの複雑な問題や、大規模マルチタスク言語理解(MMLU)データセットの様々な知識テストにおいて、バニラRAGと比較して様々なLLMの性能の向上を示している。特に、我々のゼロショットi-MedRAGは、GPT-3.5において、既存のプロンプトエンジニアリングとファインチューニング手法の全てを凌駕し、MedQAデータセットにおいて69.68%の精度を達成した。さらに、i-MedRAGのスケーリング特性について、フォローアップクエリの反復回数や反復あたりのクエリ数を変化させた場合の特性を評価した。我々のケーススタディは、i-MedRAGが推論連鎖を形成するためにフォローアップクエリを柔軟に質問することができ、医療質問の詳細な分析を提供することを示している。我々の知る限り、これは医療RAGにフォローアップクエリを組み込むことに関する初めての研究である。

要約(オリジナル)

The emergent abilities of large language models (LLMs) have demonstrated great potential in solving medical questions. They can possess considerable medical knowledge, but may still hallucinate and are inflexible in the knowledge updates. While Retrieval-Augmented Generation (RAG) has been proposed to enhance the medical question-answering capabilities of LLMs with external knowledge bases, it may still fail in complex cases where multiple rounds of information-seeking are required. To address such an issue, we propose iterative RAG for medicine (i-MedRAG), where LLMs can iteratively ask follow-up queries based on previous information-seeking attempts. In each iteration of i-MedRAG, the follow-up queries will be answered by a vanilla RAG system and they will be further used to guide the query generation in the next iteration. Our experiments show the improved performance of various LLMs brought by i-MedRAG compared with vanilla RAG on complex questions from clinical vignettes in the United States Medical Licensing Examination (USMLE), as well as various knowledge tests in the Massive Multitask Language Understanding (MMLU) dataset. Notably, our zero-shot i-MedRAG outperforms all existing prompt engineering and fine-tuning methods on GPT-3.5, achieving an accuracy of 69.68\% on the MedQA dataset. In addition, we characterize the scaling properties of i-MedRAG with different iterations of follow-up queries and different numbers of queries per iteration. Our case studies show that i-MedRAG can flexibly ask follow-up queries to form reasoning chains, providing an in-depth analysis of medical questions. To the best of our knowledge, this is the first-of-its-kind study on incorporating follow-up queries into medical RAG.

arxiv情報

著者 Guangzhi Xiong,Qiao Jin,Xiao Wang,Minjia Zhang,Zhiyong Lu,Aidong Zhang
発行日 2024-08-01 17:18:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク