要約
Large Vision-Language Model (LVLM) は、広範な生物医学データセットを活用することで医療診断を支援する上で大きな可能性を示しています。
しかし、医療画像の理解と推論の進歩は、高品質の視覚指示データの構築に大きく依存しており、特に医療分野では、その取得に費用と労力がかかります。
このデータ不足の問題を軽減するために、Self-Training Large Language and Vision Assistant for Medical (STLLaVA-Med) を導入します。
提案された方法は、Direct Preference Optimization (DPO) を通じてデータ効率を向上させるために医療視覚指示データを自動生成できるポリシー モデル (LVLM) をトレーニングするように設計されています。
具体的には、より強力で大規模な LVLM (GPT-4o など) が生物医学の専門家として関与し、自動生成データに対する DPO 微調整プロセスを監督し、政策モデルが人間の好みに効率的に適合するように促します。
当社は、3 つの主要な医療用ビジュアル質問応答 (VQA) ベンチマークにわたって STLLaVA-Med の有効性とデータ効率を検証し、医療データのわずか 9% を利用して競争力のあるゼロショット パフォーマンスを実証しました。
要約(オリジナル)
Large Vision-Language Models (LVLMs) have shown significant potential in assisting medical diagnosis by leveraging extensive biomedical datasets. However, the advancement of medical image understanding and reasoning critically depends on building high-quality visual instruction data, which is costly and labor-intensive to obtain, particularly in the medical domain. To mitigate this data-starving issue, we introduce Self-Training Large Language and Vision Assistant for Medical (STLLaVA-Med). The proposed method is designed to train a policy model (an LVLM) capable of auto-generating medical visual instruction data to improve data efficiency, guided through Direct Preference Optimization (DPO). Specifically, a more powerful and larger LVLM (e.g., GPT-4o) is involved as a biomedical expert to oversee the DPO fine-tuning process on the auto-generated data, encouraging the policy model to align efficiently with human preferences. We validate the efficacy and data efficiency of STLLaVA-Med across three major medical Visual Question Answering (VQA) benchmarks, demonstrating competitive zero-shot performance with the utilization of only 9% of the medical data.
arxiv情報
著者 | Guohao Sun,Can Qin,Huazhu Fu,Linwei Wang,Zhiqiang Tao |
発行日 | 2024-06-28 15:01:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google