要約
最近のトランスフォーマーベースのアーキテクチャは、画像セグメンテーションの分野で目覚ましい結果を示しています。
柔軟性のおかげで、単一の統一されたフレームワークの下で、セマンティックやパノプティックなどの複数のセグメンテーション タスクで優れたパフォーマンスが得られます。
このような優れたパフォーマンスを実現するために、これらのアーキテクチャは集中的な操作を採用し、大量の計算リソースを必要としますが、多くの場合、特にエッジ デバイスでは利用できません。
このギャップを埋めるために、複数のセグメンテーション タスクで動作できる効率的なトランスフォーマー ベースのアーキテクチャである Prototype-based Efficient MaskFormer (PEM) を提案します。
PEM は、視覚機能の冗長性を利用して計算を制限し、パフォーマンスを損なうことなく効率を向上させる、新しいプロトタイプベースのクロスアテンションを提案します。
さらに、PEM は効率的なマルチスケール特徴ピラミッド ネットワークを導入しており、変形可能な畳み込みとコンテキスト ベースの自己変調の組み合わせにより、高い意味論的内容を持つ特徴を効率的な方法で抽出できます。
提案された PEM アーキテクチャを、セマンティック セグメンテーションとパノプティック セグメンテーションという 2 つのタスクでベンチマークし、Cityscapes と ADE20K という 2 つの異なるデータセットで評価しました。
PEM は、あらゆるタスクとデータセットで卓越したパフォーマンスを示し、タスク固有のアーキテクチャを上回りながら、計算コストのかかるベースラインと同等かそれ以上のパフォーマンスを発揮します。
要約(オリジナル)
Recent transformer-based architectures have shown impressive results in the field of image segmentation. Thanks to their flexibility, they obtain outstanding performance in multiple segmentation tasks, such as semantic and panoptic, under a single unified framework. To achieve such impressive performance, these architectures employ intensive operations and require substantial computational resources, which are often not available, especially on edge devices. To fill this gap, we propose Prototype-based Efficient MaskFormer (PEM), an efficient transformer-based architecture that can operate in multiple segmentation tasks. PEM proposes a novel prototype-based cross-attention which leverages the redundancy of visual features to restrict the computation and improve the efficiency without harming the performance. In addition, PEM introduces an efficient multi-scale feature pyramid network, capable of extracting features that have high semantic content in an efficient way, thanks to the combination of deformable convolutions and context-based self-modulation. We benchmark the proposed PEM architecture on two tasks, semantic and panoptic segmentation, evaluated on two different datasets, Cityscapes and ADE20K. PEM demonstrates outstanding performance on every task and dataset, outperforming task-specific architectures while being comparable and even better than computationally-expensive baselines.
arxiv情報
著者 | Niccolò Cavagnero,Gabriele Rosi,Claudia Ruttano,Francesca Pistilli,Marco Ciccone,Giuseppe Averta,Fabio Cermelli |
発行日 | 2024-02-29 18:21:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google