RTFormer: Efficient Design for Real-Time Semantic Segmentation with Transformer

要約

最近、トランスフォーマーベースのネットワークは、セマンティック セグメンテーションで印象的な結果を示しています。
しかし、リアルタイムのセマンティック セグメンテーションでは、トランスフォーマーの計算メカニズムに時間がかかるため、純粋な CNN ベースのアプローチが依然としてこの分野を支配しています。
リアルタイムのセマンティックセグメンテーションのための効率的なデュアル解像度トランスフォーマーである RTFormer を提案します。これは、CNN ベースのモデルよりもパフォーマンスと効率のトレードオフを改善します。
GPU のようなデバイスで高い推論効率を達成するために、当社の RTFormer は GPU フレンドリーなアテンションを線形の複雑さで活用し、マルチヘッド メカニズムを破棄します。
さらに、クロスレゾリューション アテンションは、低レゾリューション ブランチから学習した高レベルの知識を拡散することにより、高レゾリューション ブランチのグローバル コンテキスト情報を収集するのにより効率的であることがわかりました。
主流のベンチマークでの広範な実験により、提案された RTFormer の有効性が実証され、Cityscapes、CamVid、および COCOStuff で最先端を達成し、ADE20K で有望な結果が示されています。
コードは PaddleSeg (https://github.com/PaddlePaddle/PaddleSeg) で入手できます。

要約(オリジナル)

Recently, transformer-based networks have shown impressive results in semantic segmentation. Yet for real-time semantic segmentation, pure CNN-based approaches still dominate in this field, due to the time-consuming computation mechanism of transformer. We propose RTFormer, an efficient dual-resolution transformer for real-time semantic segmenation, which achieves better trade-off between performance and efficiency than CNN-based models. To achieve high inference efficiency on GPU-like devices, our RTFormer leverages GPU-Friendly Attention with linear complexity and discards the multi-head mechanism. Besides, we find that cross-resolution attention is more efficient to gather global context information for high-resolution branch by spreading the high level knowledge learned from low-resolution branch. Extensive experiments on mainstream benchmarks demonstrate the effectiveness of our proposed RTFormer, it achieves state-of-the-art on Cityscapes, CamVid and COCOStuff, and shows promising results on ADE20K. Code is available at PaddleSeg: https://github.com/PaddlePaddle/PaddleSeg.

arxiv情報

著者 Jian Wang,Chenhui Gou,Qiman Wu,Haocheng Feng,Junyu Han,Errui Ding,Jingdong Wang
発行日 2022-10-13 16:03:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク