Medical Vision Language Pretraining: A survey

要約

Medical Vision Language Pretraining (VLP) は、医療分野におけるラベル付きデータの不足に対する有望なソリューションとして最近登場しました。
自己教師あり学習を通じてペア/アンペアのビジョンおよびテキスト データセットを活用することで、モデルをトレーニングして膨大な知識を獲得し、堅牢な特徴表現を学習することができます。
このような事前トレーニング済みモデルは、複数の下流の医療タスクを同時に強化し、ラベル付きデータへの依存を軽減する可能性があります。
しかし、最近の進歩とその可能性にもかかわらず、医療 VLP のさまざまな側面と進歩を調査したこのような包括的な調査論文はありません。
このペーパーでは、さまざまな事前トレーニングの目的、アーキテクチャ、下流の評価タスク、事前トレーニングと下流のタスクに利用されるデータセットというレンズを通して既存の作業を具体的にレビューします。
続いて、医療 VLP の現在の課題を掘り下げ、既存のソリューションと潜在的なソリューションについて議論し、将来の方向性を強調して結論とします。
私たちの知る限り、これは医療 VLP に焦点を当てた初めての調査です。

要約(オリジナル)

Medical Vision Language Pretraining (VLP) has recently emerged as a promising solution to the scarcity of labeled data in the medical domain. By leveraging paired/unpaired vision and text datasets through self-supervised learning, models can be trained to acquire vast knowledge and learn robust feature representations. Such pretrained models have the potential to enhance multiple downstream medical tasks simultaneously, reducing the dependency on labeled data. However, despite recent progress and its potential, there is no such comprehensive survey paper that has explored the various aspects and advancements in medical VLP. In this paper, we specifically review existing works through the lens of different pretraining objectives, architectures, downstream evaluation tasks, and datasets utilized for pretraining and downstream tasks. Subsequently, we delve into current challenges in medical VLP, discussing existing and potential solutions, and conclude by highlighting future directions. To the best of our knowledge, this is the first survey focused on medical VLP.

arxiv情報

著者 Prashant Shrestha,Sanskar Amgain,Bidur Khanal,Cristian A. Linte,Binod Bhattarai
発行日 2023-12-11 09:14:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク