MedThink: Inducing Medical Large-scale Visual Language Models to Hallucinate Less by Thinking More

要約

Large Vision Language Model (LVLM) をマルチモーダルな医療生成タスクに適用すると、重大なモデル幻覚の問題が発生します。
これにより、モデルの生成精度が大幅に損なわれるため、医師の診断を支援するために LVLM を現実世界の医療シナリオに実装することが困難になります。
下流の医療生成タスクのトレーニング データを強化することは、モデルの幻覚に対処する効果的な方法です。
さらに、医療分野でのトレーニング データの利用制限とプライバシーへの懸念により、モデルの精度と一般化機能が大幅に妨げられています。
本稿では、人間の認知プロセスを模倣してきめ細かい命令ペアを構築し、推論シナリオから訓練シナリオまで思考連鎖(CoT)の概念を適用する手法を紹介し、MedThinkと呼ばれる手法を提案します。
さまざまな LVLM での実験では、医療分野に合わせた新しいデータ構築方法により、医療画像レポート生成タスクにおけるモデルのパフォーマンスが大幅に向上し、幻覚が大幅に軽減されることが実証されました。
この作品のすべてのリソースは間もなくリリースされる予定です。

要約(オリジナル)

When Large Vision Language Models (LVLMs) are applied to multimodal medical generative tasks, they suffer from significant model hallucination issues. This severely impairs the model’s generative accuracy, making it challenging for LVLMs to be implemented in real-world medical scenarios to assist doctors in diagnosis. Enhancing the training data for downstream medical generative tasks is an effective way to address model hallucination. Moreover, the limited availability of training data in the medical field and privacy concerns greatly hinder the model’s accuracy and generalization capabilities. In this paper, we introduce a method that mimics human cognitive processes to construct fine-grained instruction pairs and apply the concept of chain-of-thought (CoT) from inference scenarios to training scenarios, thereby proposing a method called MedThink. Our experiments on various LVLMs demonstrate that our novel data construction method tailored for the medical domain significantly improves the model’s performance in medical image report generation tasks and substantially mitigates the hallucinations. All resources of this work will be released soon.

arxiv情報

著者 Yue Jiang,Jiawei Chen,Dingkang Yang,Mingcheng Li,Shunli Wang,Tong Wu,Ke Li,Lihua Zhang
発行日 2024-06-18 14:20:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク