要約
大規模な言語モデル(LLM)は、静的トレーニングデータセットに基づいて、時代遅れまたは不正確な情報を生成することがよくあります。
検索された生成(RAG)は、外部のデータソースを統合することにより、これを軽減します。
以前のRAGシステムは、柔軟性が限られている、事前に組み立てられた固定データベースを使用していましたが、Radiology RAG(Radiorag)を開発しました。
RAGを介して追加のオンライン情報にアクセスする場合とアクセスせずに放射線学固有の質問に答えるとき、さまざまなLLMの診断精度を評価します。
RSNAケースコレクションからの80の質問を、放射線科のサブ専門分野での80の質問と、参照標準回答、LLMS(GPT-3.5-Turbo、GPT-4、Mistral-8X7B、およびLLAMA3 [8Bおよび70B])を参照する参照標準回答(GPT-3.5-Turbo、GPT-4、Mixtral-8x7B)を使用して、ゼロシェーメントインコーティのレクリオアラグでラジオラグを使用せずに促されました。
リアルタイムのRadiopaedia。
精度が調査されました。
統計分析は、ブートストラップを使用して実行されました。
結果はさらに人間のパフォーマンスと比較されました。
Radioragは、ほとんどのLLMで診断精度を向上させ、相対的な精度は異なるLLMで最大54%増加します。
それは、特に乳房の画像診断と緊急放射線学において、放射線科の下位専門分野で回答する問題の非RAGモデルと人間の放射線科医に一致またはそれを超えました。
ただし、改善の程度はモデル間で異なりました。
GPT-3.5-TURBOおよびMIXTRAL-8X7B-INSTRUCT-V0.1は顕著な利益を見ましたが、Mistral-7B-Instruct-V0.2は改善を示しず、Radioragの有効性の変動性を強調しました。
LLMSは、トレーニングデータを超えてドメイン固有のデータへのアクセスを提供する場合に利益を得ます。
Radioragは、リアルタイムドメイン固有のデータを統合することにより、放射線学の質問におけるLLMの精度と事実性を改善する可能性を示しています。
要約(オリジナル)
Large language models (LLMs) often generate outdated or inaccurate information based on static training datasets. Retrieval-augmented generation (RAG) mitigates this by integrating outside data sources. While previous RAG systems used pre-assembled, fixed databases with limited flexibility, we have developed Radiology RAG (RadioRAG), an end-to-end framework that retrieves data from authoritative radiologic online sources in real-time. We evaluate the diagnostic accuracy of various LLMs when answering radiology-specific questions with and without access to additional online information via RAG. Using 80 questions from the RSNA Case Collection across radiologic subspecialties and 24 additional expert-curated questions with reference standard answers, LLMs (GPT-3.5-turbo, GPT-4, Mistral-7B, Mixtral-8x7B, and Llama3 [8B and 70B]) were prompted with and without RadioRAG in a zero-shot inference scenario RadioRAG retrieved context-specific information from Radiopaedia in real-time. Accuracy was investigated. Statistical analyses were performed using bootstrapping. The results were further compared with human performance. RadioRAG improved diagnostic accuracy across most LLMs, with relative accuracy increases ranging up to 54% for different LLMs. It matched or exceeded non-RAG models and the human radiologist in question answering across radiologic subspecialties, particularly in breast imaging and emergency radiology. However, the degree of improvement varied among models; GPT-3.5-turbo and Mixtral-8x7B-instruct-v0.1 saw notable gains, while Mistral-7B-instruct-v0.2 showed no improvement, highlighting variability in RadioRAG’s effectiveness. LLMs benefit when provided access to domain-specific data beyond their training data. RadioRAG shows potential to improve LLM accuracy and factuality in radiology question answering by integrating real-time domain-specific data.
arxiv情報
著者 | Soroosh Tayebi Arasteh,Mahshad Lotfinia,Keno Bressem,Robert Siepmann,Lisa Adams,Dyke Ferber,Christiane Kuhl,Jakob Nikolas Kather,Sven Nebelung,Daniel Truhn |
発行日 | 2025-06-18 14:52:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google