More complex encoder is not all you need

要約

U-Net とその亜種は、医療画像のセグメンテーションで広く使用されています。
ただし、現在の U-Net バリアントのほとんどは、デコーダを変更しないままにするか、単純な対称構造を採用しながら、改善戦略をより複雑なエンコーダの構築に限定しています。
これらのアプローチは、エンコーダから低解像度の特徴マップを受信し、アップサンプリングを通じて特徴マップの解像度と失われた情報を復元するという、デコーダの真の機能を見落としています。
その結果、デコーダ、特にそのアップサンプリング コンポーネントは、セグメンテーションの結果を向上させる上で重要な役割を果たします。
ただし、3D 医療画像セグメンテーションでは、一般的に使用される転置畳み込みにより視覚的なアーティファクトが発生する可能性があります。
この問題は、出力特徴マップ内の隣接するピクセル間に直接の関係が存在しないことが原因で発生します。
さらに、ダウンサンプリング操作により受容野が徐々に拡大するため、プレーンエンコーダはすでに十分な特徴抽出能力を備えていますが、ダウンサンプリング処理中の情報の損失は無視できません。
関連する研究におけるギャップに対処するために、私たちはエンコーダを超えて焦点を広げ、強力なデコーダを構築するためのアップサンプリングのための新しいサブピクセル コンボリューションを組み込んだ neU-Net (つまり、複雑なエンコーダ U-Net ではありません) を導入します。
さらに、追加情報を提供するために、エンコーダー側にマルチスケール ウェーブレット入力モジュールを導入します。
私たちのモデル設計は、Synapse データセットと ACDC データセットの両方で他の最先端の手法を上回る優れた結果を達成しました。

要約(オリジナル)

U-Net and its variants have been widely used in medical image segmentation. However, most current U-Net variants confine their improvement strategies to building more complex encoder, while leaving the decoder unchanged or adopting a simple symmetric structure. These approaches overlook the true functionality of the decoder: receiving low-resolution feature maps from the encoder and restoring feature map resolution and lost information through upsampling. As a result, the decoder, especially its upsampling component, plays a crucial role in enhancing segmentation outcomes. However, in 3D medical image segmentation, the commonly used transposed convolution can result in visual artifacts. This issue stems from the absence of direct relationship between adjacent pixels in the output feature map. Furthermore, plain encoder has already possessed sufficient feature extraction capability because downsampling operation leads to the gradual expansion of the receptive field, but the loss of information during downsampling process is unignorable. To address the gap in relevant research, we extend our focus beyond the encoder and introduce neU-Net (i.e., not complex encoder U-Net), which incorporates a novel Sub-pixel Convolution for upsampling to construct a powerful decoder. Additionally, we introduce multi-scale wavelet inputs module on the encoder side to provide additional information. Our model design achieves excellent results, surpassing other state-of-the-art methods on both the Synapse and ACDC datasets.

arxiv情報

著者 Weibin Yang,Longwei Xu,Pengwei Wang,Dehua Geng,Yusong Li,Mingyuan Xu,Zhiqi Dong
発行日 2023-09-21 12:01:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク