D-Rax: Domain-specific Radiologic assistant leveraging multi-modal data and eXpert model predictions

要約

大型ビジョン言語モデル(VLM)は、研究用から汎用的なユースケースへの応用へと信じられないほど進歩している。LLaVA-Medは、生物医学のための先駆的な大規模言語および視覚アシスタントであり、放射線科医に自然言語インターフェースを提供するために、マルチモダルの生物医学画像およびデータ解析を実行することができます。汎用性が高く、マルチモーダルデータに対応する一方で、大規模言語モデル空間に存在するよく知られた課題によって制限されているのが現状である。幻覚や不正確な応答は誤診につながる可能性があり、これが現在のところVLMの臨床適応性を妨げている。ヘルスケアにおける正確でユーザーフレンドリーなモデルを作成するために、我々はD-Raxを提案する。D-Raxは、特定の放射線画像に関する洞察を得るために使用できる、ドメイン固有の会話型放射線画像支援ツールである。本研究では、胸部X線(CXR)画像の会話分析を強化し、放射線医学的報告を支援することで、医療画像からの包括的な洞察を提供し、正確な診断の策定を支援する。D-Raxは、画像、指示、MIMIC-CXR画像データから得られた疾患診断と人口統計学的予測、CXR関連の視覚的質問応答(VQA)ペア、および複数の専門家AIモデルからの予測結果から構成される、我々がキュレートした拡張指示追従データ上でLLaVA-Medアーキテクチャを微調整することによって達成される。オープンエンドとクローズエンドの両方の会話で評価した場合、統計的に有意な回答の改善が観察された。D-Raxは、最先端の診断モデルとVLMを組み合わせることで、臨床医が自然言語を用いて医療画像と対話できるようにし、意思決定プロセスを合理化し、診断精度を高め、時間を節約できる可能性がある。

要約(オリジナル)

Large vision language models (VLMs) have progressed incredibly from research to applicability for general-purpose use cases. LLaVA-Med, a pioneering large language and vision assistant for biomedicine, can perform multi-modal biomedical image and data analysis to provide a natural language interface for radiologists. While it is highly generalizable and works with multi-modal data, it is currently limited by well-known challenges that exist in the large language model space. Hallucinations and imprecision in responses can lead to misdiagnosis which currently hinder the clinical adaptability of VLMs. To create precise, user-friendly models in healthcare, we propose D-Rax — a domain-specific, conversational, radiologic assistance tool that can be used to gain insights about a particular radiologic image. In this study, we enhance the conversational analysis of chest X-ray (CXR) images to support radiological reporting, offering comprehensive insights from medical imaging and aiding in the formulation of accurate diagnosis. D-Rax is achieved by fine-tuning the LLaVA-Med architecture on our curated enhanced instruction-following data, comprising of images, instructions, as well as disease diagnosis and demographic predictions derived from MIMIC-CXR imaging data, CXR-related visual question answer (VQA) pairs, and predictive outcomes from multiple expert AI models. We observe statistically significant improvement in responses when evaluated for both open and close-ended conversations. Leveraging the power of state-of-the-art diagnostic models combined with VLMs, D-Rax empowers clinicians to interact with medical images using natural language, which could potentially streamline their decision-making process, enhance diagnostic accuracy, and conserve their time.

arxiv情報

著者 Hareem Nisar,Syed Muhammad Anwar,Zhifan Jiang,Abhijeet Parida,Ramon Sanchez-Jacob,Vishwesh Nath,Holger R. Roth,Marius George Linguraru
発行日 2024-08-02 13:45:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG, eess.IV パーマリンク