CLIP in Medical Imaging: A Comprehensive Survey

要約

シンプルだが効果的な事前トレーニング パラダイムである Contrastive Language-Image Pre-training (CLIP) は、視覚モデルにテキスト監視を導入することに成功しました。
その一般化可能性と解釈可能性により、さまざまなタスクにわたって有望な結果が示されています。
CLIP の使用は、最近、医用画像領域で関心が高まっており、医用視覚と言語を調整するための事前トレーニング パラダイムとして、また多様な臨床タスクにおける重要なコンポーネントとして機能します。
この有望な方向性をより深く理解することを目的として、この調査では、洗練された CLIP 事前トレーニングと CLIP 駆動アプリケーションの両方に関して、医療画像処理の領域における CLIP パラダイムの詳細な調査を提供します。
この研究では、(1) CLIP 手法の基礎を簡単に紹介することから始めます。
(2) 次に、医療画像とレポートの特性を考慮して CLIP を最適化する方法に焦点を当て、医療領域における CLIP 事前トレーニングの適応を調査します。
(3) さらに、分類、高密度予測、クロスモーダル タスクなどのさまざまなタスクにおける CLIP 事前トレーニング モデルの実用的な利用を検討します。
(4) 最後に、医用画像処理の文脈における CLIP の既存の制限について議論し、医用画像処理領域の需要に対処するための将来を見据えた方向性を提案します。
この包括的な調査により、医用画像解析分野の研究者が CLIP パラダイムとその潜在的な影響について全体的な理解を得ることができると期待しています。
プロジェクト ページは https://github.com/zhaozh10/Awesome-CLIP-in-Medical-Imaging にあります。

要約(オリジナル)

Contrastive Language-Image Pre-training (CLIP), a simple yet effective pre-training paradigm, successfully introduces text supervision to vision models. It has shown promising results across various tasks, attributable to its generalizability and interpretability. The use of CLIP has recently gained increasing interest in the medical imaging domain, serving both as a pre-training paradigm for aligning medical vision and language, and as a critical component in diverse clinical tasks. With the aim of facilitating a deeper understanding of this promising direction, this survey offers an in-depth exploration of the CLIP paradigm within the domain of medical imaging, regarding both refined CLIP pre-training and CLIP-driven applications. In this study, We (1) start with a brief introduction to the fundamentals of CLIP methodology. (2) Then, we investigate the adaptation of CLIP pre-training in the medical domain, focusing on how to optimize CLIP given characteristics of medical images and reports. (3) Furthermore, we explore the practical utilization of CLIP pre-trained models in various tasks, including classification, dense prediction, and cross-modal tasks. (4) Finally, we discuss existing limitations of CLIP in the context of medical imaging and propose forward-looking directions to address the demands of medical imaging domain. We expect that this comprehensive survey will provide researchers in the field of medical image analysis with a holistic understanding of the CLIP paradigm and its potential implications. The project page can be found on https://github.com/zhaozh10/Awesome-CLIP-in-Medical-Imaging.

arxiv情報

著者 Zihao Zhao,Yuxiao Liu,Han Wu,Yonghao Li,Sheng Wang,Lin Teng,Disheng Liu,Zhiming Cui,Qian Wang,Dinggang Shen
発行日 2024-05-21 15:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク