Benchmarking Vision-Language Contrastive Methods for Medical Representation Learning

要約

私たちは、医療分野におけるマルチモーダル表現を学習するための対照的なフレームワークの包括的なベンチマークを実行します。
この研究を通じて、私たちは次の研究上の疑問に答えることを目指しています: (i) 一般領域の表現は医療領域にどの程度移転可能ですか?
(ii) マルチモーダルのコントラスト トレーニングで十分ですか、それともユニモーダル トレーニングからも恩恵を受けますか?
(iii) マルチモーダルな医療表現学習の有効性に対する特徴の粒度の影響は何ですか?
これらの質問に答えるために、同一のトレーニング設定の下で 8 つの対照的な学習アプローチを調査し、4 つのデータセットからの 280 万の画像とテキストのペアでそれらをトレーニングし、分類 (ゼロショットと線形プローブ)、画像を含む 25 の下流タスクで評価します。
– テキストから画像への検索、および視覚的な質問応答。
私たちの調査結果は、最初の質問に対する肯定的な答え、2 番目の質問に対する否定的な答え、および詳細な特徴を学習する利点を示唆しています。
最後に、コードを公開します。

要約(オリジナル)

We perform a comprehensive benchmarking of contrastive frameworks for learning multimodal representations in the medical domain. Through this study, we aim to answer the following research questions: (i) How transferable are general-domain representations to the medical domain? (ii) Is multimodal contrastive training sufficient, or does it benefit from unimodal training as well? (iii) What is the impact of feature granularity on the effectiveness of multimodal medical representation learning? To answer these questions, we investigate eight contrastive learning approaches under identical training setups, and train them on 2.8 million image-text pairs from four datasets, and evaluate them on 25 downstream tasks, including classification (zero-shot and linear probing), image-to-text and text-to-image retrieval, and visual question-answering. Our findings suggest a positive answer to the first question, a negative answer to the second question, and the benefit of learning fine-grained features. Finally, we make our code publicly available.

arxiv情報

著者 Shuvendu Roy,Yasaman Parhizkar,Franklin Ogidi,Vahid Reza Khazaie,Michael Colacci,Ali Etemad,Elham Dolatabadi,Arash Afkanpour
発行日 2024-06-11 16:55:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク