要約
大規模なビジョン言語モデルの急速な進歩により、さまざまなタスクにわたって驚くべき機能が実証されました。
しかし、医学における広範かつ高品質の画像テキストデータの欠如は、大規模な医療視覚言語モデルの開発を大きく妨げています。
この研究では、画像とラベルの両方の情報を利用して視覚言語データセットを構築する、診断に基づいたブートストラップ戦略を紹介します。
構築されたデータセットに基づいて、放射線学、病理学、皮膚科、網膜検査、内視鏡検査などの多様な医療データモダリティを処理できるヘルスケアのジェネラリスト基盤モデルである MedDr を開発しました。
さらに、推論中に、モデルの一般化能力を強化する、シンプルだが効果的な検索拡張医療診断戦略を提案します。
視覚的な質問応答、医療レポートの生成、および医療画像診断に関する広範な実験により、私たちの方法の優位性が実証されています。
要約(オリジナル)
The rapid advancement of large-scale vision-language models has showcased remarkable capabilities across various tasks. However, the lack of extensive and high-quality image-text data in medicine has greatly hindered the development of large-scale medical vision-language models. In this work, we present a diagnosis-guided bootstrapping strategy that exploits both image and label information to construct vision-language datasets. Based on the constructed dataset, we developed MedDr, a generalist foundation model for healthcare capable of handling diverse medical data modalities, including radiology, pathology, dermatology, retinography, and endoscopy. Moreover, during inference, we propose a simple but effective retrieval-augmented medical diagnosis strategy, which enhances the model’s generalization ability. Extensive experiments on visual question answering, medical report generation, and medical image diagnosis demonstrate the superiority of our method.
arxiv情報
| 著者 | Sunan He,Yuxiang Nie,Zhixuan Chen,Zhiyuan Cai,Hongmei Wang,Shu Yang,Hao Chen |
| 発行日 | 2024-04-23 15:27:19+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google