Benchmarking Retrieval-Augmented Generation for Medicine

要約

大規模言語モデル (LLM) は、幅広い医療質問応答 (QA) タスクで最先端のパフォーマンスを達成していますが、依然として幻覚や古い知識という課題に直面しています。
検索拡張生成 (RAG) は有望なソリューションであり、広く採用されています。
ただし、RAG システムには複数の柔軟なコンポーネントが含まれる可能性があり、さまざまな医療目的に最適な RAG 設定に関するベスト プラクティスが不足しています。
このようなシステムを体系的に評価するために、5 つの医療 QA データセットからの 7,663 の質問を含む、この種では初のベンチマークである医療情報検索拡張生成評価 (MIRAGE) を提案します。
MIRAGE を使用し、この研究で導入された MedRAG ツールキットを通じて、さまざまなコーパス、レトリーバー、バックボーン LLM の 41 の組み合わせに対して、1 兆 8000 億を超えるプロンプト トークンを使用した大規模実験を実施しました。
全体として、MedRAG は 6 つの異なる LLM の精度を思考連鎖プロンプトより最大 18% 向上させ、GPT-3.5 および Mixtral のパフォーマンスを GPT-4 レベルに高めます。
私たちの結果は、さまざまな医療コーパスとレトリバーの組み合わせが最高のパフォーマンスを達成することを示しています。
さらに、医療用 RAG における対数線形スケーリング特性と「中間喪失」効果も発見しました。
私たちは、私たちの包括的な評価が、医療用 RAG システムを導入するための実践的なガイドラインとして役立つと信じています。

要約(オリジナル)

While large language models (LLMs) have achieved state-of-the-art performance on a wide range of medical question answering (QA) tasks, they still face challenges with hallucinations and outdated knowledge. Retrieval-augmented generation (RAG) is a promising solution and has been widely adopted. However, a RAG system can involve multiple flexible components, and there is a lack of best practices regarding the optimal RAG setting for various medical purposes. To systematically evaluate such systems, we propose the Medical Information Retrieval-Augmented Generation Evaluation (MIRAGE), a first-of-its-kind benchmark including 7,663 questions from five medical QA datasets. Using MIRAGE, we conducted large-scale experiments with over 1.8 trillion prompt tokens on 41 combinations of different corpora, retrievers, and backbone LLMs through the MedRAG toolkit introduced in this work. Overall, MedRAG improves the accuracy of six different LLMs by up to 18% over chain-of-thought prompting, elevating the performance of GPT-3.5 and Mixtral to GPT-4-level. Our results show that the combination of various medical corpora and retrievers achieves the best performance. In addition, we discovered a log-linear scaling property and the ‘lost-in-the-middle’ effects in medical RAG. We believe our comprehensive evaluations can serve as practical guidelines for implementing RAG systems for medicine.

arxiv情報

著者 Guangzhi Xiong,Qiao Jin,Zhiyong Lu,Aidong Zhang
発行日 2024-02-23 16:46:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク