Multi-scale Hierarchical Vision Transformer with Cascaded Attention Decoding for Medical Image Segmentation

要約

トランスフォーマーは、医用画像のセグメンテーションで大きな成功を収めています。
ただし、トランスフォーマーは、基礎となる単一スケールの自己注意 (SA) メカニズムにより、限られた一般化能力を示す場合があります。
このホワイト ペーパーでは、複数のスケールで SA を計算することによってモデルの一般化可能性を向上させる、マルチスケール階層ビジョン トランスフォーマー (MERIT) バックボーン ネットワークを導入することによって、この問題に対処します。
また、MERIT によって生成されたマルチステージ機能をさらに改良するために、アテンション ベースのデコーダー、つまり Cascaded Attention Decoding (CASCADE) を組み込みます。
最後に、暗黙的なアンサンブルによるより良いモデル トレーニングのための効果的な多段階特徴混合損失集約 (MUTATION) メソッドを紹介します。
広く使用されている 2 つの医用画像セグメンテーション ベンチマーク (Synapse Multi-organ、ACDC) での実験では、最先端の方法よりも MERIT の優れたパフォーマンスが実証されています。
当社の MERIT アーキテクチャと MUTATION ロス アグリゲーションは、下流の医療画像およびセマンティック セグメンテーション タスクで使用できます。

要約(オリジナル)

Transformers have shown great success in medical image segmentation. However, transformers may exhibit a limited generalization ability due to the underlying single-scale self-attention (SA) mechanism. In this paper, we address this issue by introducing a Multi-scale hiERarchical vIsion Transformer (MERIT) backbone network, which improves the generalizability of the model by computing SA at multiple scales. We also incorporate an attention-based decoder, namely Cascaded Attention Decoding (CASCADE), for further refinement of multi-stage features generated by MERIT. Finally, we introduce an effective multi-stage feature mixing loss aggregation (MUTATION) method for better model training via implicit ensembling. Our experiments on two widely used medical image segmentation benchmarks (i.e., Synapse Multi-organ, ACDC) demonstrate the superior performance of MERIT over state-of-the-art methods. Our MERIT architecture and MUTATION loss aggregation can be used with downstream medical image and semantic segmentation tasks.

arxiv情報

著者 Md Mostafijur Rahman,Radu Marculescu
発行日 2023-03-29 17:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4 パーマリンク