要約
コンピュータ断層撮影 (CT) や磁気共鳴画像法 (MRI) などの 3 次元 (3D) 医療画像は、臨床応用に不可欠です。
ただし、さまざまな臓器、診断タスク、および画像診断方法間のばらつきを考慮すると、多様かつ包括的な表現の必要性が特に顕著になります。
複雑なコンテキスト情報を効果的に解釈し、これらの画像から有意義な洞察を抽出する方法は、依然としてコミュニティにとって未解決の課題です。
現在の自己教師あり学習方法は可能性を示していますが、多くの場合、画像を全体として考慮するため、1 つまたは複数の画像からの局所領域間の広範で複雑な関係を見落とします。
この研究では、自己回帰事前トレーニング フレームワークを通じて 3D 医療画像表現を学習する先駆的な方法を紹介します。
私たちのアプローチは、空間、コントラスト、意味論的な相関関係に基づいてさまざまな 3D 医療画像をシーケンス化し、それらをトークン シーケンス内の相互接続された視覚トークンとして扱います。
自己回帰シーケンス モデリング タスクを採用することで、シーケンス内の次の視覚トークンを予測します。これにより、モデルが 3D 医療画像に固有のコンテキスト情報を深く理解し、統合できるようになります。
さらに、トークンの関係の過大評価を回避し、学習の堅牢性を高めるために、ランダムな起動戦略を実装します。
私たちのアプローチの有効性は、公開データセットの 9 つの下流タスクにおける他のタスクよりも優れたパフォーマンスによって実証されています。
要約(オリジナル)
Three-dimensional (3D) medical images, such as Computed Tomography (CT) and Magnetic Resonance Imaging (MRI), are essential for clinical applications. However, the need for diverse and comprehensive representations is particularly pronounced when considering the variability across different organs, diagnostic tasks, and imaging modalities. How to effectively interpret the intricate contextual information and extract meaningful insights from these images remains an open challenge to the community. While current self-supervised learning methods have shown potential, they often consider an image as a whole thereby overlooking the extensive, complex relationships among local regions from one or multiple images. In this work, we introduce a pioneering method for learning 3D medical image representations through an autoregressive pre-training framework. Our approach sequences various 3D medical images based on spatial, contrast, and semantic correlations, treating them as interconnected visual tokens within a token sequence. By employing an autoregressive sequence modeling task, we predict the next visual token in the sequence, which allows our model to deeply understand and integrate the contextual information inherent in 3D medical images. Additionally, we implement a random startup strategy to avoid overestimating token relationships and to enhance the robustness of learning. The effectiveness of our approach is demonstrated by the superior performance over others on nine downstream tasks in public datasets.
arxiv情報
著者 | Siwen Wang,Churan Wang,Fei Gao,Lixian Su,Fandong Zhang,Yizhou Wang,Yizhou Yu |
発行日 | 2024-09-13 10:19:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google