要約
トランスフォーマーは、医用画像のセグメンテーションで大きな成功を収めています。
ただし、トランスフォーマーは、基礎となる単一スケールの自己注意 (SA) メカニズムにより、限られた一般化能力を示す場合があります。
このホワイト ペーパーでは、複数のスケールで SA を計算することによってモデルの一般化可能性を向上させる、マルチスケール階層ビジョン トランスフォーマー (MERIT) バックボーン ネットワークを導入することによって、この問題に対処します。
また、MERIT によって生成されたマルチステージ機能をさらに改良するために、アテンション ベースのデコーダー、つまり Cascaded Attention Decoding (CASCADE) を組み込みます。
最後に、暗黙的なアンサンブルによるより良いモデル トレーニングのための効果的な多段階特徴混合損失集約 (MUTATION) メソッドを紹介します。
広く使用されている 2 つの医用画像セグメンテーション ベンチマーク (Synapse Multi-organ、ACDC) での実験では、最先端の方法よりも MERIT の優れたパフォーマンスが実証されています。
当社の MERIT アーキテクチャと MUTATION ロス アグリゲーションは、下流の医療画像およびセマンティック セグメンテーション タスクで使用できます。
要約(オリジナル)
Transformers have shown great success in medical image segmentation. However, transformers may exhibit a limited generalization ability due to the underlying single-scale self-attention (SA) mechanism. In this paper, we address this issue by introducing a Multi-scale hiERarchical vIsion Transformer (MERIT) backbone network, which improves the generalizability of the model by computing SA at multiple scales. We also incorporate an attention-based decoder, namely Cascaded Attention Decoding (CASCADE), for further refinement of multi-stage features generated by MERIT. Finally, we introduce an effective multi-stage feature mixing loss aggregation (MUTATION) method for better model training via implicit ensembling. Our experiments on two widely used medical image segmentation benchmarks (i.e., Synapse Multi-organ, ACDC) demonstrate the superior performance of MERIT over state-of-the-art methods. Our MERIT architecture and MUTATION loss aggregation can be used with downstream medical image and semantic segmentation tasks.
arxiv情報
著者 | Md Mostafijur Rahman,Radu Marculescu |
発行日 | 2023-03-29 17:58:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google