FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation

要約

オープン語彙セグメンテーションは、制約のない環境でオープンなカテゴリのセット全体でオブジェクトをセグメント化して認識する必要があるため、重大な課題を引き起こします。
CLIP などの強力なビジョン言語 (ViL) 基盤モデルの成功に基づいて、最近の取り組みでは、そのゼロショート機能を活用して、目に見えないカテゴリを認識しようとしました。
顕著なパフォーマンスの向上にも関わらず、これらのモデルは依然として、目に見えないカテゴリやシナリオに対する正確なマスク提案を生成するという重大な問題に直面しており、最終的にはセグメンテーションのパフォーマンスが低下します。
この課題に対処するために、ローカリゼーション基盤モデル (SAM など) からの空間知識と ViL モデル (CLIP など) から抽出された意味知識を相乗的なフレームワークで統合するように設計された新しいアプローチである FrozenSeg を導入します。
ViL モデルのビジュアル エンコーダーを機能バックボーンとして採用し、空間認識機能をトランスフォーマー デコーダー内の学習可能なクエリと CLIP 機能に注入します。
さらに、再現率とマスクの品質をさらに向上させるためのマスク提案アンサンブル戦略を策定します。
トレーニングのオーバーヘッドを最小限に抑えながら事前トレーニングされた知識を最大限に活用するために、両方の基礎モデルをフリーズし、パフォーマンスのボトルネックであるマスク提案生成のための軽量のトランスフォーマー デコーダのみに最適化の取り組みを集中させます。
広範な実験により、FrozenSeg がさまざまなセグメンテーション ベンチマークにわたって最先端の結果をもたらし、COCO パノプティック データのみでトレーニングされ、ゼロショット方式でテストされたことが実証されています。
コードは https://github.com/chenxi52/FrozenSeg で入手できます。

要約(オリジナル)

Open-vocabulary segmentation poses significant challenges, as it requires segmenting and recognizing objects across an open set of categories in unconstrained environments. Building on the success of powerful vision-language (ViL) foundation models, such as CLIP, recent efforts sought to harness their zero-short capabilities to recognize unseen categories. Despite notable performance improvements, these models still encounter the critical issue of generating precise mask proposals for unseen categories and scenarios, resulting in inferior segmentation performance eventually. To address this challenge, we introduce a novel approach, FrozenSeg, designed to integrate spatial knowledge from a localization foundation model (e.g., SAM) and semantic knowledge extracted from a ViL model (e.g., CLIP), in a synergistic framework. Taking the ViL model’s visual encoder as the feature backbone, we inject the space-aware feature into the learnable queries and CLIP features within the transformer decoder. In addition, we devise a mask proposal ensemble strategy for further improving the recall rate and mask quality. To fully exploit pre-trained knowledge while minimizing training overhead, we freeze both foundation models, focusing optimization efforts solely on a lightweight transformer decoder for mask proposal generation-the performance bottleneck. Extensive experiments demonstrate that FrozenSeg advances state-of-the-art results across various segmentation benchmarks, trained exclusively on COCO panoptic data, and tested in a zero-shot manner. Code is available at https://github.com/chenxi52/FrozenSeg.

arxiv情報

著者 Xi Chen,Haosen Yang,Sheng Jin,Xiatian Zhu,Hongxun Yao
発行日 2024-09-05 13:36:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク