A Reality Check of Vision-Language Pre-training in Radiology: Have We Progressed Using Text?

要約

Vision-Language Pre-Trainingは、大規模なデータソースを使用してリッチな機能表現を学習できるため、最近人気を博しました。
このパラダイムは、すぐに医療イメージ分析コミュニティに進出しました。
特に、放射線科の視覚言語モデルを開発する最近の文献には印象的な量があります。
ただし、画像テキストの監督を備えた利用可能な医療データセットは不足しており、既存のビジョン言語モデルがエンコードに苦労しているという専門知識を含む医療概念は細かく密集しています。
この論文では、代わりに細かいラベルを使用して、文献から慎重な一歩を踏み出し、監督された非モーダルなトレーニングを再訪することを提案します。
ユニモーダルのプリトレーニングが非常に競争力があり、不均一なデータソースの統合に適していることを示す広範な比較を実施します。
また、私たちの結果は、楽観的な実験的設定を使用して評価されているオープンボキャブラリー一般化の最近の視覚言語モデルの可能性にも疑問を呈しています。
最後に、細かいラベルとノイズの多いテキスト監督をよりよく統合するための新しい代替品を研究します。

要約(オリジナル)

Vision-language pre-training has recently gained popularity as it allows learning rich feature representations using large-scale data sources. This paradigm has quickly made its way into the medical image analysis community. In particular, there is an impressive amount of recent literature developing vision-language models for radiology. However, the available medical datasets with image-text supervision are scarce, and medical concepts are fine-grained, involving expert knowledge that existing vision-language models struggle to encode. In this paper, we propose to take a prudent step back from the literature and revisit supervised, unimodal pre-training, using fine-grained labels instead. We conduct an extensive comparison demonstrating that unimodal pre-training is highly competitive and better suited to integrating heterogeneous data sources. Our results also question the potential of recent vision-language models for open-vocabulary generalization, which have been evaluated using optimistic experimental settings. Finally, we study novel alternatives to better integrate fine-grained labels and noisy text supervision.

arxiv情報

著者 Julio Silva-Rodríguez,Jose Dolz,Ismail Ben Ayed
発行日 2025-04-07 16:13:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク