Exploring Multimodal Large Language Models for Radiology Report Error-checking

要約

この論文では、放射線科医が報告書の誤りをチェックするためのアシスタントとして、マルチモーダル大規模言語モデル (LLM) を臨床応用した最初の 1 つを提案します。
2 つの実際の放射線データセット (MIMIC-CXR および IU-Xray) から、それぞれ 1,000 のサブサンプリング レポートを含む評価データセットを作成しました。
元のレポートのサブセットは、さまざまな種類の間違いを導入することによって合成エラーを含むように変更されました。
評価には 2 つの難易度レベルが含まれていました。バイナリ エラー チェック用の SIMPLE と、エラー タイプを識別するための COMPLEX です。
評価には、命令調整モデルを含む LLaVA (Large Language and Visual Assistant) バリアント モデルが使用されました。
さらに、ドメイン専門家の評価が小規模なテスト セットに対して実施されました。
SIMPLE レベルでは、LLaVA v1.5 モデルは他の一般公開されているモデルよりも優れたパフォーマンスを示しました。
命令チューニングにより、MIMIC-CXR データと IU-Xray データでそれぞれ 47.4% と 25.4% パフォーマンスが大幅に向上しました。
このモデルは、MIMIC-CXR データセットにおける専門家の精度も 1.67% 上回りました。
特に、臨床医が正しい結論に達しなかったテストセットのサブセット (N=21) のうち、LLaVA アンサンブル モードはこれらのケースの 71.4% を正しく特定しました。
この研究は、放射線医学における診断精度を向上させるためにマルチモーダル LLM を利用するための有望な一歩を示しています。
アンサンブル モデルは臨床医と同等のパフォーマンスを実証し、人間が見落としたエラーも捕らえました。
それにもかかわらず、不一致の種類を識別するモデルの機能を改善するには、今後の作業が必要です。

要約(オリジナル)

This paper proposes one of the first clinical applications of multimodal large language models (LLMs) as an assistant for radiologists to check errors in their reports. We created an evaluation dataset from two real-world radiology datasets (MIMIC-CXR and IU-Xray), with 1,000 subsampled reports each. A subset of original reports was modified to contain synthetic errors by introducing various type of mistakes. The evaluation contained two difficulty levels: SIMPLE for binary error-checking and COMPLEX for identifying error types. LLaVA (Large Language and Visual Assistant) variant models, including our instruction-tuned model, were used for the evaluation. Additionally, a domain expert evaluation was conducted on a small test set. At the SIMPLE level, the LLaVA v1.5 model outperformed other publicly available models. Instruction tuning significantly enhanced performance by 47.4% and 25.4% on MIMIC-CXR and IU-Xray data, respectively. The model also surpassed the domain experts accuracy in the MIMIC-CXR dataset by 1.67%. Notably, among the subsets (N=21) of the test set where a clinician did not achieve the correct conclusion, the LLaVA ensemble mode correctly identified 71.4% of these cases. This study marks a promising step toward utilizing multi-modal LLMs to enhance diagnostic accuracy in radiology. The ensemble model demonstrated comparable performance to clinicians, even capturing errors overlooked by humans. Nevertheless, future work is needed to improve the model ability to identify the types of inconsistency.

arxiv情報

著者 Jinge Wu,Yunsoo Kim,Eva C. Keller,Jamie Chow,Adam P. Levine,Nikolas Pontikos,Zina Ibrahim,Paul Taylor,Michelle C. Williams,Honghan Wu
発行日 2023-12-20 15:20:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク