Learning Multi-axis Representation in Frequency Domain for Medical Image Segmentation

要約

最近、Visual Transformer (ViT) は、空間領域のセルフ アテンション メカニズムをグローバルな知識のモデリングに適用することにより、医療画像セグメンテーション (MIS) で広く使用されています。
しかし、多くの研究は空間領域でのモデルの改善に焦点を当てており、周波数領域の情報の重要性は無視されています。
したがって、ViT の自己注意を多軸外部重みブロックに置き換えることにより、U 字型アーキテクチャに基づく多軸外部重み UNet (MEW-UNet) を提案します。
具体的には、このブロックは入力特徴の 3 つの軸でフーリエ変換を実行し、外部重みジェネレーターによって生成された外部重みを周波数領域で割り当てます。
次に、逆フーリエ変換を実行して、特徴を空間領域に戻します。
Synapse、ACDC、ISIC17、ISIC18 データセットを含む 4 つのデータセットでモデルを評価し、周波数領域情報を効果的に利用することで、当社のアプローチが競争力のあるパフォーマンスを実証しました。

要約(オリジナル)

Recently, Visual Transformer (ViT) has been extensively used in medical image segmentation (MIS) due to applying self-attention mechanism in the spatial domain to modeling global knowledge. However, many studies have focused on improving models in the spatial domain while neglecting the importance of frequency domain information. Therefore, we propose Multi-axis External Weights UNet (MEW-UNet) based on the U-shape architecture by replacing self-attention in ViT with our Multi-axis External Weights block. Specifically, our block performs a Fourier transform on the three axes of the input features and assigns the external weight in the frequency domain, which is generated by our External Weights Generator. Then, an inverse Fourier transform is performed to change the features back to the spatial domain. We evaluate our model on four datasets, including Synapse, ACDC, ISIC17 and ISIC18 datasets, and our approach demonstrates competitive performance, owing to its effective utilization of frequency domain information.

arxiv情報

著者 Jiacheng Ruan,Jingsheng Gao,Mingye Xie,Suncheng Xiang
発行日 2023-12-28 14:12:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク