LIT-Former: Linking In-plane and Through-plane Transformers for Simultaneous CT Image Denoising and Deblurring

要約

この論文では、3D 低線量コンピュータ断層撮影 (CT) イメージングについて研究しています。
これに関連してさまざまな深層学習手法が開発されましたが、通常は低線量によるノイズ除去と超解像のためのブレ除去を別々に実行します。
これまで、臨床 CT 画像を改善するために重要な面内ノイズ除去と面通過ブレ除去の同時処理はほとんど行われていませんでした。
このタスクの簡単な方法は、エンドツーエンドの 3D ネットワークを直接トレーニングすることです。
ただし、より多くのトレーニング データと高価な計算コストが必要です。
ここでは、3D CT イメージングの面内サブタスクと面内サブタスクを効率的に相乗させることができる、LIT-Former と呼ばれる面内ノイズ除去と面内ブレ除去を同時に行うために、面内トランスと面内トランスをリンクすることを提案します。
畳み込みネットワークと変換ネットワークの両方の利点を享受できます。
LIT-Former には、効率的なマルチヘッド自己注意モジュール (eMSM) と効率的な畳み込みフィードフォワード ネットワーク (eCFN) という 2 つの斬新な設計があります。
まず、eMSM は面内 2D 自己注意と面内 1D 自己注意を統合して、変圧器ネットワークのコア ユニットである 3D 自己注意のグローバルな相互作用を効率的にキャプチャします。
次に、eCFN は 2D 畳み込みと 1D 畳み込みを統合して、3D 畳み込みのローカル情報を同じ方法で抽出します。
その結果、提案された LIT-Former は、これら 2 つのサブタスクを相乗効果で処理し、3D の対応物と比較して計算の複雑さを大幅に軽減し、迅速な収束を可能にします。
シミュレートされたデータセットと臨床データセットに関する広範な実験結果は、最先端のモデルよりも優れたパフォーマンスを示しています。

要約(オリジナル)

This paper studies 3D low-dose computed tomography (CT) imaging. Although various deep learning methods were developed in this context, typically they perform denoising due to low-dose and deblurring for super-resolution separately. Up to date, little work was done for simultaneous in-plane denoising and through-plane deblurring, which is important to improve clinical CT images. For this task, a straightforward method is to directly train an end-to-end 3D network. However, it demands much more training data and expensive computational costs. Here, we propose to link in-plane and through-plane transformers for simultaneous in-plane denoising and through-plane deblurring, termed as LIT-Former, which can efficiently synergize in-plane and through-plane sub-tasks for 3D CT imaging and enjoy the advantages of both convolution and transformer networks. LIT-Former has two novel designs: efficient multi-head self-attention modules (eMSM) and efficient convolutional feed-forward networks (eCFN). First, eMSM integrates in-plane 2D self-attention and through-plane 1D self-attention to efficiently capture global interactions of 3D self-attention, the core unit of transformer networks. Second, eCFN integrates 2D convolution and 1D convolution to extract local information of 3D convolution in the same fashion. As a result, the proposed LIT-Former synergizes these two sub-tasks, significantly reducing the computational complexity as compared to 3D counterparts and enabling rapid convergence. Extensive experimental results on simulated and clinical datasets demonstrate superior performance over state-of-the-art models.

arxiv情報

著者 Zhihao Chen,Chuang Niu,Ge Wang,Hongming Shan
発行日 2023-02-21 12:43:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, physics.med-ph パーマリンク