要約
ビジョントランスフォーマーは、さまざまなコンピュータービジョンタスクでの卓越したパフォーマンスにより、最近、医療画像分析の分野で新しい波を起こしました。
ただし、最近のハイブリッド/トランスフォーマーベースのアプローチは、主に、トランスフォーマーの困難な計算の複雑さ、高いトレーニングコスト、および冗長な依存関係の問題を無視しながら、長距離の依存関係をキャプチャする際のトランスフォーマーの利点に焦点を当てています。
本論文では、医療画像セグメンテーションのための変圧器への適応剪定を採用することを提案し、軽量で効果的なハイブリッドネットワークAPFormerを提案する。
私たちの知る限り、これは医療画像分析タスクのための変圧器の剪定に関する最初の作業です。
APFormerの主な機能は、主に、依存関係の確立の収束を改善するための自己監視自己注意(SSA)、位置情報の学習を促進するためのガウス優先相対位置埋め込み(GRPE)、および冗長な計算と認識を排除するための適応プルーニングです。
情報。
具体的には、SSAとGRPEは、十分に収束した依存関係分布とガウスヒートマップ分布を、変圧器のトレーニングを容易にし、次の剪定操作の強固な基盤を築くための自己注意と位置埋め込みの事前知識として別々に考慮します。
次に、複雑さの軽減とパフォーマンスの向上の両方のためにゲート制御パラメーターを調整することにより、クエリと依存関係の両方で適応型変圧器の剪定が実行されます。
広く使用されている2つのデータセットでの広範な実験により、パラメーターがはるかに少なく、GFLOPが低い最先端の方法に対するAPFormerの卓越したセグメンテーションパフォーマンスが実証されています。
さらに重要なことに、アブレーションの研究を通じて、適応型剪定が他のハイブリッド/トランスベースの方法でパフォーマンスを向上させるためのプラグアンドプレイモジュールとして機能できることを証明します。
コードはhttps://github.com/xianlin7/APFormerで入手できます。
要約(オリジナル)
Vision transformers have recently set off a new wave in the field of medical image analysis due to their remarkable performance on various computer vision tasks. However, recent hybrid-/transformer-based approaches mainly focus on the benefits of transformers in capturing long-range dependency while ignoring the issues of their daunting computational complexity, high training costs, and redundant dependency. In this paper, we propose to employ adaptive pruning to transformers for medical image segmentation and propose a lightweight and effective hybrid network APFormer. To our best knowledge, this is the first work on transformer pruning for medical image analysis tasks. The key features of APFormer mainly are self-supervised self-attention (SSA) to improve the convergence of dependency establishment, Gaussian-prior relative position embedding (GRPE) to foster the learning of position information, and adaptive pruning to eliminate redundant computations and perception information. Specifically, SSA and GRPE consider the well-converged dependency distribution and the Gaussian heatmap distribution separately as the prior knowledge of self-attention and position embedding to ease the training of transformers and lay a solid foundation for the following pruning operation. Then, adaptive transformer pruning, both query-wise and dependency-wise, is performed by adjusting the gate control parameters for both complexity reduction and performance improvement. Extensive experiments on two widely-used datasets demonstrate the prominent segmentation performance of APFormer against the state-of-the-art methods with much fewer parameters and lower GFLOPs. More importantly, we prove, through ablation studies, that adaptive pruning can work as a plug-n-play module for performance improvement on other hybrid-/transformer-based methods. Code is available at https://github.com/xianlin7/APFormer.
arxiv情報
著者 | Xian Lin,Li Yu,Kwang-Ting Cheng,Zengqiang Yan |
発行日 | 2022-07-12 12:54:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google