Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively

要約

CLIP および Segment Anything Model (SAM) は、注目すべきビジョン基盤モデル (VFM) です。
SAM はさまざまなドメインにわたるセグメンテーション タスクに優れており、CLIP はゼロショット認識機能で有名です。
このペーパーでは、これら 2 つのモデルを統合フレームワークに統合する方法について詳しく説明します。
具体的には、SAM2CLIP と CLIP2SAM という 2 つの独自の知識伝達モジュールを活用して、対話型のセグメンテーションと認識を同時に行うために設計された SAM にインスピレーションを得たモデルである Open-Vocabulary SAM を導入します。
前者は蒸留と学習可能な変換アダプターを介して SAM の知識を CLIP に適応させ、後者は CLIP の知識を SAM に転送して、その認識機能を強化します。
さまざまなデータセットと検出器に関する広範な実験により、セグメンテーションと認識タスクの両方における Open-Vocabulary SAM の有効性が示され、単純に SAM と CLIP を組み合わせた単純なベースラインを大幅に上回ります。
さらに、画像分類データのトレーニングを利用して、私たちの方法は約 22,000 のクラスをセグメント化して認識できます。

要約(オリジナル)

The CLIP and Segment Anything Model (SAM) are remarkable vision foundation models (VFMs). SAM excels in segmentation tasks across diverse domains, while CLIP is renowned for its zero-shot recognition capabilities. This paper presents an in-depth exploration of integrating these two models into a unified framework. Specifically, we introduce the Open-Vocabulary SAM, a SAM-inspired model designed for simultaneous interactive segmentation and recognition, leveraging two unique knowledge transfer modules: SAM2CLIP and CLIP2SAM. The former adapts SAM’s knowledge into the CLIP via distillation and learnable transformer adapters, while the latter transfers CLIP knowledge into SAM, enhancing its recognition capabilities. Extensive experiments on various datasets and detectors show the effectiveness of Open-Vocabulary SAM in both segmentation and recognition tasks, significantly outperforming the naive baselines of simply combining SAM and CLIP. Furthermore, aided with image classification data training, our method can segment and recognize approximately 22,000 classes.

arxiv情報

著者 Haobo Yuan,Xiangtai Li,Chong Zhou,Yining Li,Kai Chen,Chen Change Loy
発行日 2024-01-05 18:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク