Autoregressive Sequence Modeling for 3D Medical Image Representation


コンピュータ断層撮影 (CT) や磁気共鳴画像法 (MRI) などの 3 次元 (3D) 医療画像は、臨床応用に不可欠です。
現在の自己教師あり学習方法は可能性を示していますが、多くの場合、画像を全体として考慮するため、1 つまたは複数の画像からの局所領域間の広範で複雑な関係を見落とします。
この研究では、自己回帰事前トレーニング フレームワークを通じて 3D 医療画像表現を学習する先駆的な方法を紹介します。
私たちのアプローチは、空間、コントラスト、意味論的な相関関係に基づいてさまざまな 3D 医療画像をシーケンス化し、それらをトークン シーケンス内の相互接続された視覚トークンとして扱います。
自己回帰シーケンス モデリング タスクを採用することで、シーケンス内の次の視覚トークンを予測します。これにより、モデルが 3D 医療画像に固有のコンテキスト情報を深く理解し、統合できるようになります。
私たちのアプローチの有効性は、公開データセットの 9 つの下流タスクにおける他のタスクよりも優れたパフォーマンスによって実証されています。


Three-dimensional (3D) medical images, such as Computed Tomography (CT) and Magnetic Resonance Imaging (MRI), are essential for clinical applications. However, the need for diverse and comprehensive representations is particularly pronounced when considering the variability across different organs, diagnostic tasks, and imaging modalities. How to effectively interpret the intricate contextual information and extract meaningful insights from these images remains an open challenge to the community. While current self-supervised learning methods have shown potential, they often consider an image as a whole thereby overlooking the extensive, complex relationships among local regions from one or multiple images. In this work, we introduce a pioneering method for learning 3D medical image representations through an autoregressive pre-training framework. Our approach sequences various 3D medical images based on spatial, contrast, and semantic correlations, treating them as interconnected visual tokens within a token sequence. By employing an autoregressive sequence modeling task, we predict the next visual token in the sequence, which allows our model to deeply understand and integrate the contextual information inherent in 3D medical images. Additionally, we implement a random startup strategy to avoid overestimating token relationships and to enhance the robustness of learning. The effectiveness of our approach is demonstrated by the superior performance over others on nine downstream tasks in public datasets.


著者 Siwen Wang,Churan Wang,Fei Gao,Lixian Su,Fandong Zhang,Yizhou Wang,Yizhou Yu
発行日 2024-09-13 10:19:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク