Multimodal Foundation Models Exploit Text to Make Medical Image Predictions

要約

マルチモーダル基礎モデルは、医用画像読影において、説得力があるものの相反するパフォーマンスを示しています。
ただし、これらのモデルが画像やテキストなどのさまざまなデータ モダリティを統合し、優先順位を付けるメカニズムは、まだ十分に理解されていません。
ここでは、1,014 件の多様な医療症例の多様なコレクションを使用して、プロプライエタリ (GPT-4、Gemini Pro 1.0) とオープンソース (Llama-3.2-90B、LLaVA-Med-v1.5) の単峰性および多峰性画像読影能力を評価します。
) テキスト説明を使用する場合と使用しない場合のマルチモーダル基礎モデル。
すべてのモデルにおいて、画像予測は主にテキストの活用によって推進され、情報テキストの量に応じて精度が単調に増加しました。
対照的に、人間の医用画像読影のパフォーマンスは、有益なテキストを使用しても向上しませんでした。
テキストの悪用は諸刃の剣です。
テキスト内で不正確な診断が軽度に示唆された場合でも、画像ベースの分類が低下し、モデルが以前は画像のみで回答できた場合にパフォーマンスが大幅に低下することがわかりました。
最後に、長文の医療症例に対するモデルのパフォーマンスについて医師による評価を実施しました。その結果、テキストがすでに非常に有益な情報を提供している場合、画像の提供はモデルのパフォーマンスに影響を与えるか、または影響を与えないことがわかりました。
私たちの結果は、マルチモーダル AI モデルが医療診断推論に役立つ可能性があるが、その精度は良くも悪くもテキストの活用によって大きく左右されることを示唆しています。

要約(オリジナル)

Multimodal foundation models have shown compelling but conflicting performance in medical image interpretation. However, the mechanisms by which these models integrate and prioritize different data modalities, including images and text, remain poorly understood. Here, using a diverse collection of 1014 multimodal medical cases, we evaluate the unimodal and multimodal image interpretation abilities of proprietary (GPT-4, Gemini Pro 1.0) and open-source (Llama-3.2-90B, LLaVA-Med-v1.5) multimodal foundational models with and without the use of text descriptions. Across all models, image predictions were largely driven by exploiting text, with accuracy increasing monotonically with the amount of informative text. By contrast, human performance on medical image interpretation did not improve with informative text. Exploitation of text is a double-edged sword; we show that even mild suggestions of an incorrect diagnosis in text diminishes image-based classification, reducing performance dramatically in cases the model could previously answer with images alone. Finally, we conducted a physician evaluation of model performance on long-form medical cases, finding that the provision of images either reduced or had no effect on model performance when text is already highly informative. Our results suggest that multimodal AI models may be useful in medical diagnostic reasoning but that their accuracy is largely driven, for better and worse, by their exploitation of text.

arxiv情報

著者 Thomas Buckley,James A. Diao,Pranav Rajpurkar,Adam Rodman,Arjun K. Manrai
発行日 2024-11-25 15:38:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク