ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation

要約

最近、CLIP は 2 段階スキームを介してピクセルレベルのゼロショット学習タスクに適用されています。
一般的なアイデアは、最初にクラスに依存しない領域提案を生成し、次にトリミングされた提案領域を CLIP に供給して、画像レベルのゼロショット分類機能を利用することです。
このような方式は効果的ではありますが、提案生成用と CLIP 用の 2 つの画像エンコーダが必要となるため、パイプラインが複雑になり、計算コストが高くなります。
この研究では、CLIP のゼロショット予測機能を画像レベルからピクセル レベルまで直接拡張する、よりシンプルで効率的な 1 段階のソリューションを追求します。
私たちの調査は、CLIP から抽出されたテキストとパッチの埋め込み間の類似性を比較することによってセマンティック マスクを生成する、ベースラインとしての直接的な拡張から始まります。
ただし、そのようなパラダイムは、目に見えるクラスに大きく過剰適合し、目に見えないクラスに一般化できない可能性があります。
この問題に対処するために、私たちは 3 つのシンプルだが効果的な設計を提案し、それらが CLIP の固有のゼロショット能力を大幅に保持し、ピクセルレベルの汎化能力を向上させることができることを明らかにしました。
これらの変更を組み込むと、ZegCLIP と呼ばれる効率的なゼロショット セマンティック セグメンテーション システムが実現します。
3 つの公開ベンチマークでの広範な実験を通じて、ZegCLIP は優れたパフォーマンスを実証し、「誘導的」および「伝達的」ゼロショット設定の両方で最先端の手法を大幅に上回りました。
また、当社の1段階ZegCLIPは、2段階方式に比べて推論時に約5倍の高速化を実現しました。
コードは https://github.com/ZiqinZhou66/ZegCLIP.git でリリースします。

要約(オリジナル)

Recently, CLIP has been applied to pixel-level zero-shot learning tasks via a two-stage scheme. The general idea is to first generate class-agnostic region proposals and then feed the cropped proposal regions to CLIP to utilize its image-level zero-shot classification capability. While effective, such a scheme requires two image encoders, one for proposal generation and one for CLIP, leading to a complicated pipeline and high computational cost. In this work, we pursue a simpler-and-efficient one-stage solution that directly extends CLIP’s zero-shot prediction capability from image to pixel level. Our investigation starts with a straightforward extension as our baseline that generates semantic masks by comparing the similarity between text and patch embeddings extracted from CLIP. However, such a paradigm could heavily overfit the seen classes and fail to generalize to unseen classes. To handle this issue, we propose three simple-but-effective designs and figure out that they can significantly retain the inherent zero-shot capacity of CLIP and improve pixel-level generalization ability. Incorporating those modifications leads to an efficient zero-shot semantic segmentation system called ZegCLIP. Through extensive experiments on three public benchmarks, ZegCLIP demonstrates superior performance, outperforming the state-of-the-art methods by a large margin under both ‘inductive’ and ‘transductive’ zero-shot settings. In addition, compared with the two-stage method, our one-stage ZegCLIP achieves a speedup of about 5 times faster during inference. We release the code at https://github.com/ZiqinZhou66/ZegCLIP.git.

arxiv情報

著者 Ziqin Zhou,Bowen Zhang,Yinjie Lei,Lingqiao Liu,Yifan Liu
発行日 2023-06-20 17:50:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク