要約
Large Vision Language Model (LVLM) は、医療用視覚的質問応答や画像レポート生成などの医療アプリケーションにますます不可欠になっています。
これらのモデルは、基本的なラージ言語モデル (LLM) の堅牢な機能を継承していますが、幻覚に対する感受性も継承しています。これは、エラーの許容範囲が最小限に抑えられる一か八かの医療現場では重大な懸念事項です。
しかし、現在、医療分野における幻覚の検出と評価のための専用の手法やベンチマークは存在しません。
このギャップを埋めるために、医療マルチモーダル領域内で幻覚の検出と評価のために特別に設計された初のベンチマークである Med-HallMark を紹介します。
このベンチマークは、マルチタスク幻覚サポート、多面的な幻覚データ、および階層型幻覚分類を提供します。
さらに、幻覚の重症度と種類を考慮した階層的スコアリングシステムを通じてLVLMの幻覚を評価するように設計された新しい医学的評価指標であるメディホールスコアを提案し、それによって潜在的な臨床影響の詳細な評価を可能にします。
また、幻覚検出のためのマルチタスク トレーニングを採用した、正確な幻覚検出用に設計された新しい医療用 LVLM である MediHallDetector も紹介します。
広範な実験評価を通じて、ベンチマークを使用して一般的な LVLM のベースラインを確立します。
この調査結果は、MediHall Score が従来の指標と比較して幻覚の影響をより微妙に理解できることを示し、MediHallDetector のパフォーマンスが向上していることを示しています。
この研究により、医療用途における LVLM の信頼性が大幅に向上することを期待しています。
この作品のすべてのリソースは間もなくリリースされる予定です。
要約(オリジナル)
Large Vision Language Models (LVLMs) are increasingly integral to healthcare applications, including medical visual question answering and imaging report generation. While these models inherit the robust capabilities of foundational Large Language Models (LLMs), they also inherit susceptibility to hallucinations-a significant concern in high-stakes medical contexts where the margin for error is minimal. However, currently, there are no dedicated methods or benchmarks for hallucination detection and evaluation in the medical field. To bridge this gap, we introduce Med-HallMark, the first benchmark specifically designed for hallucination detection and evaluation within the medical multimodal domain. This benchmark provides multi-tasking hallucination support, multifaceted hallucination data, and hierarchical hallucination categorization. Furthermore, we propose the MediHall Score, a new medical evaluative metric designed to assess LVLMs’ hallucinations through a hierarchical scoring system that considers the severity and type of hallucination, thereby enabling a granular assessment of potential clinical impacts. We also present MediHallDetector, a novel Medical LVLM engineered for precise hallucination detection, which employs multitask training for hallucination detection. Through extensive experimental evaluations, we establish baselines for popular LVLMs using our benchmark. The findings indicate that MediHall Score provides a more nuanced understanding of hallucination impacts compared to traditional metrics and demonstrate the enhanced performance of MediHallDetector. We hope this work can significantly improve the reliability of LVLMs in medical applications. All resources of this work will be released soon.
arxiv情報
著者 | Jiawei Chen,Dingkang Yang,Tong Wu,Yue Jiang,Xiaolu Hou,Mingcheng Li,Shunli Wang,Dongling Xiao,Ke Li,Lihua Zhang |
発行日 | 2024-06-14 17:14:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google