PEM: Prototype-based Efficient MaskFormer for Image Segmentation

要約

最近の変換器ベースのアーキテクチャは、画像セグメンテーションの分野で目覚ましい成果を上げている。その柔軟性のおかげで、セマンティックやパノプティックといった複数のセグメンテーションタスクにおいて、単一の統一されたフレームワークのもとで、卓越した性能を得ることができる。このような素晴らしい性能を達成するために、これらのアーキテクチャは集中的な演算を行い、多大な計算資源を必要とするが、特にエッジデバイスでは利用できないことが多い。このギャップを埋めるために、我々は、複数のセグメンテーションタスクで動作可能な効率的な変換器ベースのアーキテクチャであるPrototype-based Efficient MaskFormer(PEM)を提案する。PEMは、視覚的特徴の冗長性を利用して計算を制限し、性能を損なうことなく効率を向上させる、新しいプロトタイプベースのクロスアテンションを提案する。さらに、PEMは効率的なマルチスケール特徴ピラミッドネットワークを導入し、変形可能な畳み込みと文脈に基づく自己変調の組み合わせにより、高い意味内容を持つ特徴を効率的な方法で抽出することができる。提案するPEMアーキテクチャのベンチマークを、意味的セグメンテーションと汎光セグメンテーションの2つのタスクで行い、CityscapesとADE20Kの2つの異なるデータセットで評価した。PEMは全てのタスクとデータセットにおいて卓越した性能を示し、タスクに特化したアーキテクチャを凌駕する一方で、計算コストの高いベースラインと同等かそれ以上である。

要約(オリジナル)

Recent transformer-based architectures have shown impressive results in the field of image segmentation. Thanks to their flexibility, they obtain outstanding performance in multiple segmentation tasks, such as semantic and panoptic, under a single unified framework. To achieve such impressive performance, these architectures employ intensive operations and require substantial computational resources, which are often not available, especially on edge devices. To fill this gap, we propose Prototype-based Efficient MaskFormer (PEM), an efficient transformer-based architecture that can operate in multiple segmentation tasks. PEM proposes a novel prototype-based cross-attention which leverages the redundancy of visual features to restrict the computation and improve the efficiency without harming the performance. In addition, PEM introduces an efficient multi-scale feature pyramid network, capable of extracting features that have high semantic content in an efficient way, thanks to the combination of deformable convolutions and context-based self-modulation. We benchmark the proposed PEM architecture on two tasks, semantic and panoptic segmentation, evaluated on two different datasets, Cityscapes and ADE20K. PEM demonstrates outstanding performance on every task and dataset, outperforming task-specific architectures while being comparable and even better than computationally-expensive baselines.

arxiv情報

著者 Niccolò Cavagnero,Gabriele Rosi,Claudia Cuttano,Francesca Pistilli,Marco Ciccone,Giuseppe Averta,Fabio Cermelli
発行日 2024-03-01 09:10:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク