WiTUnet: A U-Shaped Architecture Integrating CNN and Transformer for Improved Feature Alignment and Local Information Fusion

要約

低線量コンピュータ断層撮影 (LDCT) は、画像ノイズが増加し、診断精度に影響を与える可能性があるにもかかわらず、標準 CT と比較して放射線量が低いため、医療画像診断に最適な技術となっています。
これに対処するために、主に畳み込みニューラル ネットワーク (CNN) または Unet アーキテクチャを備えたトランスフォーマー ネットワークを使用して、高度な深層学習ベースの LDCT ノイズ除去アルゴリズムが開発されました。
このアーキテクチャは、スキップ接続を介してエンコーダとデコーダからの特徴マップを統合することにより、画像の詳細を強化します。
ただし、現在の方法では、Unet アーキテクチャ自体の機能強化が見落とされ、代わりにエンコーダとデコーダの構造の最適化に重点が置かれていることがよくあります。
このアプローチは、エンコーダとデコーダの間の特徴マップ特性に大きな違いがあるため、単純な融合戦略では画像を効果的に再構成できない可能性があるため、問題が発生する可能性があります。この論文では、ネストされた高密度スキップを利用する新しい LDCT 画像ノイズ除去方法である WiTUnet を紹介します。
従来のスキップ接続の代わりにパスウェイを使用して、機能の統合を向上させます。
WiTUnet には、ウィンドウ化された Transformer 構造も組み込まれており、重複しない小さなセグメントで画像を処理し、計算負荷を軽減します。
さらに、エンコーダとデコーダの両方にローカル画像認識強化 (LiPe) モジュールを統合することで、トランスフォーマーの標準多層パーセプトロン (MLP) が置き換えられ、ローカル特徴のキャプチャと表現が強化されます。
広範な実験比較を通じて、WiTUnet はピーク信号対雑音比 (PSNR)、構造類似性 (SSIM)、二乗平均平方根誤差 (RMSE) などの主要な指標において既存の方法よりも優れたパフォーマンスを示し、ノイズ除去と画像を大幅に改善しました。
品質。

要約(オリジナル)

Low-dose computed tomography (LDCT) has become the technology of choice for diagnostic medical imaging, given its lower radiation dose compared to standard CT, despite increasing image noise and potentially affecting diagnostic accuracy. To address this, advanced deep learning-based LDCT denoising algorithms have been developed, primarily using Convolutional Neural Networks (CNNs) or Transformer Networks with the Unet architecture. This architecture enhances image detail by integrating feature maps from the encoder and decoder via skip connections. However, current methods often overlook enhancements to the Unet architecture itself, focusing instead on optimizing encoder and decoder structures. This approach can be problematic due to the significant differences in feature map characteristics between the encoder and decoder, where simple fusion strategies may not effectively reconstruct images.In this paper, we introduce WiTUnet, a novel LDCT image denoising method that utilizes nested, dense skip pathways instead of traditional skip connections to improve feature integration. WiTUnet also incorporates a windowed Transformer structure to process images in smaller, non-overlapping segments, reducing computational load. Additionally, the integration of a Local Image Perception Enhancement (LiPe) module in both the encoder and decoder replaces the standard multi-layer perceptron (MLP) in Transformers, enhancing local feature capture and representation. Through extensive experimental comparisons, WiTUnet has demonstrated superior performance over existing methods in key metrics such as Peak Signal-to-Noise Ratio (PSNR), Structural Similarity (SSIM), and Root Mean Square Error (RMSE), significantly improving noise removal and image quality.

arxiv情報

著者 Bin Wang,Fei Deng,Peifan Jiang,Shuang Wang,Xiao Han,Hongjie Zheng
発行日 2024-04-15 07:53:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク