Deep-Learning-based Fast and Accurate 3D CT Deformable Image Registration in Lung Cancer

要約

タイトル: 肺がんにおける3D CT変形画像の深層学習に基づく高速かつ正確な登録手法

要約:

– 一部のプロトン線治療施設では、3D on-the-bedイメージングが利用できないため、2つの2D直交kV画像を使用して患者のアラインメントを行うことが必要。しかしながら、患者の3D解剖学が2D平面上に投影されるため、特に腫瘍が骨などの高密度構造物の後ろにある場合、kV画像での腫瘍の可視性は限られており、大きな患者のセットアップ誤差を引き起こす可能性がある。
– この問題に対する解決策として、治療位置で取得された治療中心点のkV画像から3D CT画像を再構成することが挙げられる。
– 本研究では、不対称なオートエンコーダのようなネットワークが、ビジョン・トランスフォーマーブロックを用いて構築された。データは1つの頭頸部患者から収集され、2つの直交するkV画像(1024×1024ボクセル)、1つの3D CT(512x512x512)、そしてCTに基づく2つのDRR画像(512×512)を含んでいた。それぞれの方向で128次元の次元を持つ262,144サンプルからなるデータセットが作成された。トレーニング時には、kV画像とDRR画像の両方が利用され、エンコーダは両方からフィーチャーマップを学習することが可能になっている。テスト時には、独立したkV画像のみが使用された。合成CT(sCT)は、モデルによって生成されたsCTを空間情報に従って結合することで達成された。
– このモデルでは、2.1秒でMAEが40HU未満のスピードが達成されている。CDVHは、ボクセル全体のうち約5%のボクセルが185 HUより大きいボクセルごとの絶対CT値の差を示している。
– つまり、kV画像から3D CT画像を正確かつ効率的に再構成するには、本研究で開発された患者固有のビジョン・トランスフォーマー・ベースのネットワークを使用することが有望である。

要約(オリジナル)

Purpose: In some proton therapy facilities, patient alignment relies on two 2D orthogonal kV images, taken at fixed, oblique angles, as no 3D on-the-bed imaging is available. The visibility of the tumor in kV images is limited since the patient’s 3D anatomy is projected onto a 2D plane, especially when the tumor is behind high-density structures such as bones. This can lead to large patient setup errors. A solution is to reconstruct the 3D CT image from the kV images obtained at the treatment isocenter in the treatment position. Methods: An asymmetric autoencoder-like network built with vision-transformer blocks was developed. The data was collected from 1 head and neck patient: 2 orthogonal kV images (1024×1024 voxels), 1 3D CT with padding (512x512x512) acquired from the in-room CT-on-rails before kVs were taken and 2 digitally-reconstructed-radiograph (DRR) images (512×512) based on the CT. We resampled kV images every 8 voxels and DRR and CT every 4 voxels, thus formed a dataset consisting of 262,144 samples, in which the images have a dimension of 128 for each direction. In training, both kV and DRR images were utilized, and the encoder was encouraged to learn the jointed feature map from both kV and DRR images. In testing, only independent kV images were used. The full-size synthetic CT (sCT) was achieved by concatenating the sCTs generated by the model according to their spatial information. The image quality of the synthetic CT (sCT) was evaluated using mean absolute error (MAE) and per-voxel-absolute-CT-number-difference volume histogram (CDVH). Results: The model achieved a speed of 2.1s and a MAE of <40HU. The CDVH showed that <5% of the voxels had a per-voxel-absolute-CT-number-difference larger than 185 HU. Conclusion: A patient-specific vision-transformer-based network was developed and shown to be accurate and efficient to reconstruct 3D CT images from kV images.

arxiv情報

著者 Yuzhen Ding,Hongying Feng,Yunze Yang,Jason Holmes,Zhengliang Liu,David Liu,William W. Wong,Nathan Y. Yu,Terence T. Sio,Steven E. Schild,Baoxin Li,Wei Liu
発行日 2023-04-21 17:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, physics.med-ph パーマリンク