AVP-AP: Self-supervised Automatic View Positioning in 3D cardiac CT via Atlas Prompting

要約

自動ビューのポジショニングは、疾患診断や外科​​的計画を含む、心臓コンピューター断層撮影(CT)試験で重要です。
ただし、個々の変動と大きな3D検索スペースのため、非常に困難です。
既存の作業には、固定された平面セットのみを予測することに限定された、視野固有のモデルを訓練するために、労働集約的で時間のかかる手動注釈が必要です。
ただし、実際の臨床シナリオでは、任意の3Dボリュームのさまざまな座標空間への方向を持つセマンティック2Dスライスを配置するという課題は未解決のままです。
したがって、3D CTボリュームでの自己監視された自動ビューの位置付けを促すATLASを最初に使用した新しいフレームワークAVP-APを紹介します。
具体的には、このペーパーでは、最初にATLASプロンプトメソッドを提案します。これにより、3Dカノニカルアトラスが生成され、ネットワークをトレーニングして、スライスを自己監視方法でアトラス空間の対応する位置にマッピングします。
次に、参照CTの指定されたクエリ画像に対応するATLASプロンプトに導かれ、3D ATLAとターゲットCTボリューム間の剛体変換を使用して、ターゲットCTボリュームのスライスの粗い位置を識別し、検索スペースを効果的に削減します。
最後に、特定の基礎モデルの特徴空間で、予測されたスライスとクエリ画像との類似性を最大化することにより、粗い位置を改良します。
私たちのフレームワークは、他の方法と比較して柔軟で効率的であり、4人の放射線科医と比較して、任意のビューの位置決めで他の方法を19.8%平均構造的類似性(SSIM)よりも上回っています。
一方、パブリックデータセットでの実験は、フレームワークの一般化可能性を検証します。

要約(オリジナル)

Automatic view positioning is crucial for cardiac computed tomography (CT) examinations, including disease diagnosis and surgical planning. However, it is highly challenging due to individual variability and large 3D search space. Existing work needs labor-intensive and time-consuming manual annotations to train view-specific models, which are limited to predicting only a fixed set of planes. However, in real clinical scenarios, the challenge of positioning semantic 2D slices with any orientation into varying coordinate space in arbitrary 3D volume remains unsolved. We thus introduce a novel framework, AVP-AP, the first to use Atlas Prompting for self-supervised Automatic View Positioning in the 3D CT volume. Specifically, this paper first proposes an atlas prompting method, which generates a 3D canonical atlas and trains a network to map slices into their corresponding positions in the atlas space via a self-supervised manner. Then, guided by atlas prompts corresponding to the given query images in a reference CT, we identify the coarse positions of slices in the target CT volume using rigid transformation between the 3D atlas and target CT volume, effectively reducing the search space. Finally, we refine the coarse positions by maximizing the similarity between the predicted slices and the query images in the feature space of a given foundation model. Our framework is flexible and efficient compared to other methods, outperforming other methods by 19.8% average structural similarity (SSIM) in arbitrary view positioning and achieving 9% SSIM in two-chamber view compared to four radiologists. Meanwhile, experiments on a public dataset validate our framework’s generalizability.

arxiv情報

著者 Xiaolin Fan,Yan Wang,Yingying Zhang,Mingkun Bao,Bosen Jia,Dong Lu,Yifan Gu,Jian Cheng,Haogang Zhu
発行日 2025-04-08 12:24:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク