CLIP Is Also a Good Teacher: A New Learning Framework for Inductive Zero-shot Semantic Segmentation

要約

一般化されたゼロショット セマンティック セグメンテーションは、可視カテゴリと未可視カテゴリの両方を、可視カテゴリの監視下でのみセグメント化することを目的としています。
これに取り組むために、既存の手法では、優れたゼロショット パフォーマンスを実現する大規模ビジョン言語モデル (VLM) が採用されています。
ただし、VLM は分類タスク用に設計されているため、VLM を直接適応させると最適なパフォーマンスが得られない可能性があります。
その結果、我々は、VLMと組み合わせたり挿入したりすることなく、テスト中のゼロショットおよびオープンボキャブラリータスクに適用されるクローズセットセグメンテーション用に設計された任意の画像エンコーダを可能にする、シンプルだが効果的なトレーニングフレームワークであるCLIP-ZSS(ゼロショットセマンティックセグメンテーション)を提案します。
新しいモジュール。
CLIP-ZSS は、グローバル学習モジュール (GLM) とピクセル学習モジュール (PLM) の 2 つの主要モジュールで構成されています。
GLM は、同じ画像の画像エンコーダから CLS トークンと密な特徴を引き出し、他を押し離すことによって、CLIP ビジュアル エンコーダからの知識を調査することが提案されています。
さらに、目に見えないカテゴリを識別する能力を強化するために、擬似ラベルと重み生成から構成される PLM が設計されています。
意味的に識別された擬似ラベルを生成するために、密なトークンに作用するマスク融合を伴うマルチスケール K-Means が提案されます。
擬似重み生成では、アノテーションのない領域の擬似意味論的特徴を生成するシンセサイザーが導入されます。
3 つのベンチマークの実験では、SOTA 手法と比較してパフォーマンスが大幅に向上していることがわかりました。

要約(オリジナル)

Generalized Zero-shot Semantic Segmentation aims to segment both seen and unseen categories only under the supervision of the seen ones. To tackle this, existing methods adopt the large-scale Vision Language Models (VLMs) which obtain outstanding zero-shot performance. However, as the VLMs are designed for classification tasks, directly adapting the VLMs may lead to sub-optimal performance. Consequently, we propose CLIP-ZSS (Zero-shot Semantic Segmentation), a simple but effective training framework that enables any image encoder designed for closed-set segmentation applied in zero-shot and open-vocabulary tasks in testing without combining with VLMs or inserting new modules. CLIP-ZSS consists of two key modules: Global Learning Module (GLM) and Pixel Learning Module (PLM). GLM is proposed to probe the knowledge from the CLIP visual encoder by pulling the CLS token and the dense features from the image encoder of the same image and pushing others apart. Moreover, to enhance the ability to discriminate unseen categories, PLM consisting of pseudo labels and weight generation is designed. To generate semantically discriminated pseudo labels, a multi-scale K-Means with mask fusion working on the dense tokens is proposed. In pseudo weight generation, a synthesizer generating pseudo semantic features for the unannotated area is introduced. Experiments on three benchmarks show large performance gains compared with SOTA methods.

arxiv情報

著者 Jialei Chen,Daisuke Deguchi,Chenkai Zhang,Xu Zheng,Hiroshi Murase
発行日 2024-02-21 12:31:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク