ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation

要約

最近、CLIP は、2 段階のスキームを介してピクセル レベルのゼロ ショット学習タスクに適用されました。
一般的な考え方は、最初にクラスに依存しない領域提案を生成し、次にトリミングされた提案領域を CLIP にフィードして、画像レベルのゼロ ショット分類機能を利用することです。
このような方式は効果的ですが、提案生成用と CLIP 用の 2 つの画像エンコーダーが必要であり、パイプラインが複雑になり、計算コストが高くなります。
この作業では、CLIP のゼロ ショット予測機能を画像からピクセル レベルに直接拡張する、よりシンプルで効率的な 1 段階のソリューションを追求します。
私たちの調査は、CLIP から抽出されたテキストとパッチ埋め込みの間の類似性を比較することによってセマンティック マスクを生成するベースラインとしての単純な拡張から始まります。
ただし、このようなパラダイムは、表示されているクラスに過度に適合し、表示されていないクラスに一般化できない可能性があります。
この問題に対処するために、シンプルだが効果的な 3 つの設計を提案し、CLIP 固有のゼロ ショット機能を大幅に保持し、ピクセル レベルの一般化機能を改善できることを確認しました。
これらの変更を組み込むと、ZegCLIP と呼ばれる効率的なゼロ ショット セマンティック セグメンテーション システムが生まれます。
3 つの公開ベンチマークでの広範な実験を通じて、ZegCLIP は優れたパフォーマンスを示し、「誘導」および「変換」ゼロショット設定の両方で最先端の方法を大幅に上回りました。
また、2段法に比べ、1段のZegCLIPは推論時の約5倍の高速化を実現。
https://github.com/ZiqinZhou66/ZegCLIP.git でコードをリリースします。

要約(オリジナル)

Recently, CLIP has been applied to pixel-level zero-shot learning tasks via a two-stage scheme. The general idea is to first generate class-agnostic region proposals and then feed the cropped proposal regions to CLIP to utilize its image-level zero-shot classification capability. While effective, such a scheme requires two image encoders, one for proposal generation and one for CLIP, leading to a complicated pipeline and high computational cost. In this work, we pursue a simpler-and-efficient one-stage solution that directly extends CLIP’s zero-shot prediction capability from image to pixel level. Our investigation starts with a straightforward extension as our baseline that generates semantic masks by comparing the similarity between text and patch embeddings extracted from CLIP. However, such a paradigm could heavily overfit the seen classes and fail to generalize to unseen classes. To handle this issue, we propose three simple-but-effective designs and figure out that they can significantly retain the inherent zero-shot capacity of CLIP and improve pixel-level generalization ability. Incorporating those modifications leads to an efficient zero-shot semantic segmentation system called ZegCLIP. Through extensive experiments on three public benchmarks, ZegCLIP demonstrates superior performance, outperforming the state-of-the-art methods by a large margin under both ‘inductive’ and ‘transductive’ zero-shot settings. In addition, compared with the two-stage method, our one-stage ZegCLIP achieves a speedup of about 5 times faster during inference. We release the code at https://github.com/ZiqinZhou66/ZegCLIP.git.

arxiv情報

著者 Ziqin Zhou,Bowen Zhang,Yinjie Lei,Lingqiao Liu,Yifan Liu
発行日 2022-12-12 15:38:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク