RadioRAG: Factual Large Language Models for Enhanced Diagnostics in Radiology Using Dynamic Retrieval Augmented Generation

要約

大規模言語モデル (LLM) は、医療における人工知能 (AI) の分野を進歩させました。
ただし、LLM は静的トレーニング データセットに基づいて、古い情報や不正確な情報を生成することがよくあります。
取得拡張世代 (RAG) は、外部データ ソースを統合することでこれを軽減します。
以前の RAG システムは、柔軟性が限られた事前に組み立てられた固定データベースを使用していましたが、当社は信頼できる放射線学のオンライン ソースからリアルタイムでデータを取得するエンドツーエンドのフレームワークとして放射線学 RAG (RadioRAG) を開発しました。
RadioRAG は、専用の放射線問答データセット (RadioQA) を使用して評価されます。
RAG を介した追加オンライン情報へのアクセスの有無にかかわらず、放射線科特有の質問に答える際に、さまざまな LLM の診断精度を評価します。
放射線科の下位専門分野にわたる RSNA Case Collection からの 80 の質問と、正しいゴールドスタンダードの回答が得られた追加の専門家が厳選した 24 の質問を使用して、LLM (GPT-3.5-turbo、GPT-4、Mistral-7B、Mistral-8x7B、および
Llama3 [8B および 70B]) は、RadioRAG の有無にかかわらずプロンプトが表示されました。
RadioRAG は、コンテキスト固有の情報を www.radiopaedia.org からリアルタイムで取得し、その応答に組み込みました。
RadioRAG は、すべての LLM にわたって一貫して診断精度を向上させ、相対的な向上率は 2% ~ 54% の範囲でした。
これは、放射線科の下位専門分野、特に乳房画像診断と緊急放射線科において、RAG を使用しない場合の質問応答と同等かそれを上回っていました。
ただし、改善の程度はモデルによって異なります。
GPT-3.5-turbo と Mixtral-8x7B-instruct-v0.1 では顕著な改善が見られましたが、Mistral-7B-instruct-v0.2 では改善が見られず、その有効性のばらつきが浮き彫りになりました。
LLM は、トレーニング データを超えたドメイン固有のデータへのアクセスが提供されるとメリットが得られます。
放射線科に関しては、RadioRAG は放射線科の質問応答における診断精度と事実性を大幅に向上させる堅牢なフレームワークを確立しています。

要約(オリジナル)

Large language models (LLMs) have advanced the field of artificial intelligence (AI) in medicine. However LLMs often generate outdated or inaccurate information based on static training datasets. Retrieval augmented generation (RAG) mitigates this by integrating outside data sources. While previous RAG systems used pre-assembled, fixed databases with limited flexibility, we have developed Radiology RAG (RadioRAG) as an end-to-end framework that retrieves data from authoritative radiologic online sources in real-time. RadioRAG is evaluated using a dedicated radiologic question-and-answer dataset (RadioQA). We evaluate the diagnostic accuracy of various LLMs when answering radiology-specific questions with and without access to additional online information via RAG. Using 80 questions from RSNA Case Collection across radiologic subspecialties and 24 additional expert-curated questions, for which the correct gold-standard answers were available, LLMs (GPT-3.5-turbo, GPT-4, Mistral-7B, Mixtral-8x7B, and Llama3 [8B and 70B]) were prompted with and without RadioRAG. RadioRAG retrieved context-specific information from www.radiopaedia.org in real-time and incorporated them into its reply. RadioRAG consistently improved diagnostic accuracy across all LLMs, with relative improvements ranging from 2% to 54%. It matched or exceeded question answering without RAG across radiologic subspecialties, particularly in breast imaging and emergency radiology. However, degree of improvement varied among models; GPT-3.5-turbo and Mixtral-8x7B-instruct-v0.1 saw notable gains, while Mistral-7B-instruct-v0.2 showed no improvement, highlighting variability in its effectiveness. LLMs benefit when provided access to domain-specific data beyond their training data. For radiology, RadioRAG establishes a robust framework that substantially improves diagnostic accuracy and factuality in radiological question answering.

arxiv情報

著者 Soroosh Tayebi Arasteh,Mahshad Lotfinia,Keno Bressem,Robert Siepmann,Dyke Ferber,Christiane Kuhl,Jakob Nikolas Kather,Sven Nebelung,Daniel Truhn
発行日 2024-07-22 13:29:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク