Self-supervised Multi-modal Training from Uncurated Image and Reports Enables Zero-shot Oversight Artificial Intelligence in Radiology

要約

タイトル:医用画像と報告書の非キュレーション学習による、ゼロショット監督AIの実現

要約:
– 監督人工知能(AI)は、医療画像診断の決定を支援するために、AIが放射線学者と共生する新しいコンセプトである。
– 最近の視覚言語モデルの進歩は、視覚的およびテキスト上の概念とその意味的対応を理解することにより、監督AIの長年の問題に光を当てている。
– しかしながら、医療分野におけるビジョン・ランゲージモデルと学習戦略の現在の状況は、しばしば実現不可能な画像とテキストのペアの大規模なデータコーパスを要求している。
– この問題を解決するために、医療用途に最適化されたモデルとして、Medical Cross-attention Vision-Languageモデル(Medical X-VL)を提案した。
– Medical X-VLモデルは以下の構成要素に基づいている:医療分野の自己教師付き単一モーダルモデル、それらを接続するための融合エンコーダ、運動量蒸留、医療報告書の文ごとの対比的学習、および文の類似性に応じたハードネガティブマイニング。
– これらの構成要素を利用することで、医療分野におけるゼロショットタスクの実現を実験的に示した。
– 彼らのモデルは、ゼロショット分類からゼロショットエラー訂正まで、様々な監督AIのタスクを可能にし、2つの異なる医療画像データベースで現在の最先端モデルを上回った。
– 彼らの研究成果は、クリニックで頻繁に遭遇するようなデータ制限設定において特に成功したことから、医療分野での広範な適用可能性があると示唆している。

要約(オリジナル)

Oversight AI is an emerging concept in radiology where the AI forms a symbiosis with radiologists by continuously supporting radiologists in their decision-making. Recent advances in vision-language models sheds a light on the long-standing problems of the oversight AI by the understanding both visual and textual concepts and their semantic correspondences. However, there have been limited successes in the application of vision-language models in the medical domain, as the current vision-language models and learning strategies for photographic images and captions call for the web-scale data corpus of image and text pairs which was not often feasible in the medical domain. To address this, here we present a model dubbed Medical Cross-attention Vision-Language model (Medical X-VL), leveraging the key components to be tailored for the medical domain. Our medical X-VL model is based on the following components: self-supervised uni-modal models in medical domain and fusion encoder to bridge them, momentum distillation, sentence-wise contrastive learning for medical reports, and the sentence similarity-adjusted hard negative mining. We experimentally demonstrated that our model enables various zero-shot tasks for oversight AI, ranging from the zero-shot classification to zero-shot error correction. Our model outperformed the current state-of-the-art models in two different medical image database, suggesting the novel clinical usage of our oversight AI model for monitoring human errors. Our method was especially successful in the data-limited setting, which is frequently encountered in the clinics, suggesting the potential widespread applicability in medical domain.

arxiv情報

著者 Sangjoon Park,Eun Sun Lee,Kyung Sook Shin,Jeong Eun Lee,Jong Chul Ye
発行日 2023-04-12 10:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV, cs.LG, eess.IV パーマリンク