Spach Transformer: Spatial and Channel-wise Transformer Based on Local and Global Self-attentions for PET Image Denoising

要約

PET(ポジショナル・エミッション・トモグラフィー)は、その定量的なメリットと高い感度から、臨床や研究において広く用いられているが、低い信号対雑音比(SNR)に悩まされている。近年、PETの画質を向上させるために畳み込みニューラルネットワーク(CNN)が広く利用されています。CNNは局所的な特徴抽出には有効であるが、その受容野が限定されているため、長距離依存性をうまく捉えることができない。広域多頭自己アテンション(MSA)は、長距離情報を捕捉するための一般的なアプローチである。しかし、3次元画像に対するグローバルMSAの計算には高い計算コストがかかる。そこで本研究では、局所および大域MSAに基づく空間およびチャネル情報を活用できる効率的な空間およびチャネル単位のエンコーダ・デコーダ変換器であるSpach Transformerを提案した。提案したフレームワークを評価するために、異なるPETトレーサー、すなわち、$^{18}$F-FDG, $^{18}$F-ACBC, $^{18}$F-DCFPyL, $^{68}$Ga-DOTATATE のデータセットに基づく実験を実施した。定量的な結果から、提案するSpach Transformerは他の参照手法よりも優れた性能を達成できることが示された。

要約(オリジナル)

Position emission tomography (PET) is widely used in clinics and research due to its quantitative merits and high sensitivity, but suffers from low signal-to-noise ratio (SNR). Recently convolutional neural networks (CNNs) have been widely used to improve PET image quality. Though successful and efficient in local feature extraction, CNN cannot capture long-range dependencies well due to its limited receptive field. Global multi-head self-attention (MSA) is a popular approach to capture long-range information. However, the calculation of global MSA for 3D images has high computational costs. In this work, we proposed an efficient spatial and channel-wise encoder-decoder transformer, Spach Transformer, that can leverage spatial and channel information based on local and global MSAs. Experiments based on datasets of different PET tracers, i.e., $^{18}$F-FDG, $^{18}$F-ACBC, $^{18}$F-DCFPyL, and $^{68}$Ga-DOTATATE, were conducted to evaluate the proposed framework. Quantitative results show that the proposed Spach Transformer can achieve better performance than other reference methods.

arxiv情報

著者 Se-In Jang,Tinsu Pan,Ye Li,Pedram Heidari,Junyu Chen,Quanzheng Li,Kuang Gong
発行日 2022-09-07 16:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク