要約
言語教師付き事前トレーニングは、画像から意味的に意味のある特徴を抽出するための貴重な方法であることが証明されており、コンピューター ビジョンおよび医療画像ドメイン内のマルチモーダル システムの基礎要素として機能します。
ただし、結果として得られる機能は、テキスト内に含まれる情報によって制限されます。
これは、放射線科医の書面による所見が特定の観察に焦点を当てている医療画像処理において特に問題となります。
個人の健康情報の漏洩に対する懸念により、画像とテキストのペアデータが不足していることにより、この課題はさらに悪化しています。
この研究では、汎用の生物医学画像エンコーダの学習における言語監視への一般的な依存に根本的に挑戦します。
RAD-DINO は、単峰性生物医学イメージング データのみに基づいて事前トレーニングされた生物医学画像エンコーダであり、さまざまなベンチマークで最先端の生物医学言語教師ありモデルと同等以上のパフォーマンスを実現します。
具体的には、学習された表現の品質は、標準的な画像化タスク (分類とセマンティック セグメンテーション) および視覚言語調整タスク (画像からのテキスト レポートの生成) で評価されます。
言語監視の欠点をさらに実証するために、RAD-DINO の特徴は、一般に放射線医学のレポートでは言及されていない言語監視モデルよりも他の医療記録 (性別や年齢など) とよりよく相関していることを示します。
最後に、RAD-DINO のパフォーマンスの要因を決定する一連のアブレーションを実施します。
特に、RAD-DINO のダウンストリーム パフォーマンスがトレーニング データの量と多様性に合わせて適切にスケールされることが観察され、画像のみの監視が基礎的な生物医学画像エンコーダーをトレーニングするためのスケーラブルなアプローチであることが実証されました。
要約(オリジナル)
Language-supervised pre-training has proven to be a valuable method for extracting semantically meaningful features from images, serving as a foundational element in multimodal systems within the computer vision and medical imaging domains. However, resulting features are limited by the information contained within the text. This is particularly problematic in medical imaging, where radiologists’ written findings focus on specific observations; a challenge compounded by the scarcity of paired imaging-text data due to concerns over leakage of personal health information. In this work, we fundamentally challenge the prevailing reliance on language supervision for learning general purpose biomedical imaging encoders. We introduce RAD-DINO, a biomedical image encoder pre-trained solely on unimodal biomedical imaging data that obtains similar or greater performance than state-of-the-art biomedical language supervised models on a diverse range of benchmarks. Specifically, the quality of learned representations is evaluated on standard imaging tasks (classification and semantic segmentation), and a vision-language alignment task (text report generation from images). To further demonstrate the drawback of language supervision, we show that features from RAD-DINO correlate with other medical records (e.g., sex or age) better than language-supervised models, which are generally not mentioned in radiology reports. Finally, we conduct a series of ablations determining the factors in RAD-DINO’s performance; notably, we observe that RAD-DINO’s downstream performance scales well with the quantity and diversity of training data, demonstrating that image-only supervision is a scalable approach for training a foundational biomedical image encoder.
arxiv情報
著者 | Fernando Pérez-García,Harshita Sharma,Sam Bond-Taylor,Kenza Bouzid,Valentina Salvatelli,Maximilian Ilse,Shruthi Bannur,Daniel C. Castro,Anton Schwaighofer,Matthew P. Lungren,Maria Wetscherek,Noel Codella,Stephanie L. Hyland,Javier Alvarez-Valle,Ozan Oktay |
発行日 | 2024-01-19 17:02:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google