T3D: Towards 3D Medical Image Understanding through Vision-Language Pre-training

要約

下流分析のための 3D 医用画像の専門家によるアノテーションはリソースを大量に消費し、臨床アプリケーションに課題をもたらします。
視覚的自己教師あり学習 (vSSL) は、視覚的不変性の学習には効果的ですが、医学からのドメイン知識の組み込みを無視しています。
医学知識を視覚表現学習に組み込むために、ビジョン言語事前トレーニング (VLP) が 2D 画像で有望な結果を示しています。
ただし、既存の VLP アプローチは、GPU ハードウェアの制約と、ハードウェアの制約に対する直感的な解決策であるダウンサンプリングによって引き起こされる重要な詳細が失われる可能性があるため、高解像度の 3D 医用画像に適用すると一般的に非実用的になります。
上記の制限に対処するために、高解像度 3D 医療画像用に設計された初の VLP フレームワークである T3D を導入します。
T3D には、2 つのテキスト情報による口実タスクが組み込まれています: (\ lowerromannumeral{1}) テキスト情報による対照学習。
(\ lowerromannumeral{2}) テキスト情報による画像の復元。
これらのタスクは、ダウンサンプリングされたボリュームと詳細な解剖学的テキストを強制的に位置合わせすることで情報を歪めることなく、高解像度の 3D 医療画像から 3D 視覚表現を学習し、放射線医学レポートからの臨床知識を統合することに重点を置いています。
新しく厳選された 3D 医療画像と放射線医学レポートの大規模データセットでトレーニングされた T3D は、臓器や腫瘍のセグメンテーション、疾患分類などのタスクにおいて、現在の vSSL 手法を大幅に上回ります。
これは、3D 医用画像分析の表現学習における T3D の可能性を強調しています。
すべてのデータとコードは、承認され次第利用可能になります。

要約(オリジナル)

Expert annotation of 3D medical image for downstream analysis is resource-intensive, posing challenges in clinical applications. Visual self-supervised learning (vSSL), though effective for learning visual invariance, neglects the incorporation of domain knowledge from medicine. To incorporate medical knowledge into visual representation learning, vision-language pre-training (VLP) has shown promising results in 2D image. However, existing VLP approaches become generally impractical when applied to high-resolution 3D medical images due to GPU hardware constraints and the potential loss of critical details caused by downsampling, which is the intuitive solution to hardware constraints. To address the above limitations, we introduce T3D, the first VLP framework designed for high-resolution 3D medical images. T3D incorporates two text-informed pretext tasks: (\lowerromannumeral{1}) text-informed contrastive learning; (\lowerromannumeral{2}) text-informed image restoration. These tasks focus on learning 3D visual representations from high-resolution 3D medical images and integrating clinical knowledge from radiology reports, without distorting information through forced alignment of downsampled volumes with detailed anatomical text. Trained on a newly curated large-scale dataset of 3D medical images and radiology reports, T3D significantly outperforms current vSSL methods in tasks like organ and tumor segmentation, as well as disease classification. This underlines T3D’s potential in representation learning for 3D medical image analysis. All data and code will be available upon acceptance.

arxiv情報

著者 Che Liu,Cheng Ouyang,Yinda Chen,Cesar César Quilodrán-Casas,Lei Ma,Jie Fu,Yike Guo,Anand Shah,Wenjia Bai,Rossella Arcucci
発行日 2023-12-05 09:01:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, eess.IV パーマリンク