PosSAM: Panoptic Open-vocabulary Segment Anything

要約

このペーパーでは、セグメント エニシング モデル (SAM) の長所と視覚言語 CLIP モデルをエンドツーエンド フレームワークで効果的に統合する、オープン語彙パノプティック セグメンテーション モデルを紹介します。
SAM は空間認識マスクの生成には優れていますが、デコーダはオブジェクト クラス情報の認識が不十分であり、追加のガイダンスがないとオーバーセグメント化する傾向があります。
既存のアプローチは、多段階技術を使用し、バウンディング ボックスやセグメンテーション マスクなどのクラス認識プロンプトを生成する別のモデルを採用することで、この制限に対処しています。
私たちが提案する手法である PosSAM は、SAM の空間的に豊富な機能を活用してインスタンス認識マスクを生成し、CLIP の意味的識別機能を利用して効果的なインスタンス分類を行うエンドツーエンドのモデルです。
具体的には、SAM の制限に対処し、クラスに依存しない SAM とクラスを意識した CLIP 機能を利用して、公平なオープン語彙分類を実現する新しい Local Discriminative Pooling (LDP) モジュールを提案します。
さらに、生成されるマスクの品質を適応的に向上させ、各画像の推論中のオープン語彙分類のパフォーマンスを向上させるマスク認識選択アンサンブル (MASE) アルゴリズムを導入します。
私たちは、複数のデータセットにわたるメソッドの強力な一般化特性を実証するために大規模な実験を実施し、SOTA オープンボキャブラリーパノプティックセグメンテーションメソッドを大幅に改善して最先端のパフォーマンスを実現しました。
COCO から ADE20K への設定と ADE20K から COCO への設定の両方で、PosSAM は以前の最先端の方法をそれぞれ 2.4 PQ および 4.6 PQ と大幅に上回りました。
プロジェクトの Web サイト: https://vibashan.github.io/possam-web/。

要約(オリジナル)

In this paper, we introduce an open-vocabulary panoptic segmentation model that effectively unifies the strengths of the Segment Anything Model (SAM) with the vision-language CLIP model in an end-to-end framework. While SAM excels in generating spatially-aware masks, it’s decoder falls short in recognizing object class information and tends to oversegment without additional guidance. Existing approaches address this limitation by using multi-stage techniques and employing separate models to generate class-aware prompts, such as bounding boxes or segmentation masks. Our proposed method, PosSAM is an end-to-end model which leverages SAM’s spatially rich features to produce instance-aware masks and harnesses CLIP’s semantically discriminative features for effective instance classification. Specifically, we address the limitations of SAM and propose a novel Local Discriminative Pooling (LDP) module leveraging class-agnostic SAM and class-aware CLIP features for unbiased open-vocabulary classification. Furthermore, we introduce a Mask-Aware Selective Ensembling (MASE) algorithm that adaptively enhances the quality of generated masks and boosts the performance of open-vocabulary classification during inference for each image. We conducted extensive experiments to demonstrate our methods strong generalization properties across multiple datasets, achieving state-of-the-art performance with substantial improvements over SOTA open-vocabulary panoptic segmentation methods. In both COCO to ADE20K and ADE20K to COCO settings, PosSAM outperforms the previous state-of-the-art methods by a large margin, 2.4 PQ and 4.6 PQ, respectively. Project Website: https://vibashan.github.io/possam-web/.

arxiv情報

著者 Vibashan VS,Shubhankar Borse,Hyojin Park,Debasmit Das,Vishal Patel,Munawar Hayat,Fatih Porikli
発行日 2024-03-14 17:55:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク