EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation

要約

オープンボキャブラリーのパノプティックセグメンテーションは、境界のないボキャブラリーにわたって多様なシーンのあらゆるものをセグメント化して分類することを目的としています。
既存の方法は通常、2 段階または 1 段階のフレームワークを採用しています。
2 段階フレームワークでは、マスク ジェネレーターによって生成されたマスクを使用して画像を複数回トリミングし、その後特徴を抽出します。一方、1 段階フレームワークでは、セルフ アテンションを通じて空間位置情報の不足を補うために重量のあるマスク デコーダーに依存します。
複数のスタックされた Transformer ブロックでのクロスアテンション。
どちらの方法でもかなりの計算オーバーヘッドが発生するため、モデル推論の効率が妨げられます。
効率のギャップを埋めるために、オープンボキャブラリーのパノプティックセグメンテーション用に設計された、新しい単一段階の共有型効率的で空間認識フレームワークである EOV-Seg を提案します。
具体的には、EOV-Seg は 2 つの側面で革新をもたらします。
まず、視覚的に集約された特徴の意味的理解を改善し、マスク デコーダにかかる特徴相互作用の負担を軽減するために、語彙認識選択 (VAS) モジュールが提案されています。
2 番目に、ViT ベースの CLIP バックボーンの空間認識機能を効率的に利用する双方向ダイナミック エンベディング エキスパート (TDEE) を導入します。
私たちの知る限り、EOV-Seg は効率性を追求した初のオープンボキャブラリーパノプティックセグメンテーションフレームワークであり、最先端の手法と比較してより高速に実行され、競争力のあるパフォーマンスを実現します。
具体的には、COCO トレーニングのみを使用した場合、EOV-Seg は ADE20K データセット上で 24.5 PQ、32.1 mIoU、および 11.6 FPS を達成し、EOV-Seg の推論時間は最新の手法より 4 ~ 19 倍高速です。
特に、ResNet50 バックボーンを備えた EOV-Seg は、単一の RTX 3090 GPU でわずか 7,100 万のパラメータで 23.8 FPS を実行します。
コードは https://github.com/nhw649/EOV-Seg で入手できます。

要約(オリジナル)

Open-vocabulary panoptic segmentation aims to segment and classify everything in diverse scenes across an unbounded vocabulary. Existing methods typically employ two-stage or single-stage framework. The two-stage framework involves cropping the image multiple times using masks generated by a mask generator, followed by feature extraction, while the single-stage framework relies on a heavyweight mask decoder to make up for the lack of spatial position information through self-attention and cross-attention in multiple stacked Transformer blocks. Both methods incur substantial computational overhead, thereby hindering the efficiency of model inference. To fill the gap in efficiency, we propose EOV-Seg, a novel single-stage, shared, efficient, and spatialaware framework designed for open-vocabulary panoptic segmentation. Specifically, EOV-Seg innovates in two aspects. First, a Vocabulary-Aware Selection (VAS) module is proposed to improve the semantic comprehension of visual aggregated features and alleviate the feature interaction burden on the mask decoder. Second, we introduce a Two-way Dynamic Embedding Experts (TDEE), which efficiently utilizes the spatial awareness capabilities of ViT-based CLIP backbone. To the best of our knowledge, EOV-Seg is the first open-vocabulary panoptic segmentation framework towards efficiency, which runs faster and achieves competitive performance compared with state-of-the-art methods. Specifically, with COCO training only, EOV-Seg achieves 24.5 PQ, 32.1 mIoU, and 11.6 FPS on the ADE20K dataset and the inference time of EOV-Seg is 4-19 times faster than state-of-theart methods. Especially, equipped with ResNet50 backbone, EOV-Seg runs 23.8 FPS with only 71M parameters on a single RTX 3090 GPU. Code is available at https://github.com/nhw649/EOV-Seg.

arxiv情報

著者 Hongwei Niu,Jie Hu,Jianghang Lin,Guannan Jiang,Shengchuan Zhang
発行日 2024-12-16 18:16:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク