要約
最近の研究では、CLIP を利用して、注釈のない画像のみを利用できる、困難な教師なしセマンティック セグメンテーション タスクを実行しています。
しかし、このようなピクセルレベルの理解タスクに CLIP を採用すると、予期しないバイアス (クラス優先バイアスや空間優先バイアスを含む) が発生することが観察されています。
以前の研究では、セグメンテーションのパフォーマンスに大きな制約を与えるバイアスを明示的にモデル化していませんでした。
この論文では、教師なしセマンティック セグメンテーション タスクを容易にするために、CLIP に存在するバイアスを明示的にモデル化して修正することを提案します。
具体的には、クラス選好バイアスをエンコードするための学習可能な「参照」プロンプトと、空間選好バイアスをエンコードするためのビジョントランスフォーマーへの位置埋め込みの投影をそれぞれ設計します。
干渉を避けるために、まず 2 種類のバイアスが異なる特徴、つまり基準特徴と位置特徴に独立してエンコードされます。
参照フィーチャと位置フィーチャ間の行列乗算により、2 種類のバイアスを明示的に表すバイアス ロジット マップが生成されます。
次に、単純な要素ごとの減算によって CLIP のロジットを修正します。
修正された結果をよりスムーズでコンテキストに合わせたものにするために、CLIP の機能と修正されたロジットを入力として受け取り、Gumbel-Softmax 演算を利用して修正されたセグメンテーション マスクを出力するマスク デコーダを設計します。
マスクされた視覚的特徴とさまざまなクラスのテキスト特徴に基づくコントラスト損失が課せられ、バイアス モデリングと修正プロセスが有意義かつ効果的になります。
PASCAL VOC、PASCAL Context、ADE20K、Cityscapes、COCO Stuff などのさまざまなベンチマークに関する広範な実験により、私たちの手法が以前の最先端技術に対して有利に機能することが実証されました。
実装は https://github.com/dogehh/ReCLIP から入手できます。
要約(オリジナル)
Recent works utilize CLIP to perform the challenging unsupervised semantic segmentation task where only images without annotations are available. However, we observe that when adopting CLIP to such a pixel-level understanding task, unexpected bias (including class-preference bias and space-preference bias) occurs. Previous works don’t explicitly model the bias, which largely constrains the segmentation performance. In this paper, we propose to explicitly model and rectify the bias existing in CLIP to facilitate the unsupervised semantic segmentation task. Specifically, we design a learnable ‘Reference’ prompt to encode class-preference bias and a projection of the positional embedding in the vision transformer to encode space-preference bias respectively. To avoid interference, two kinds of biases are firstly independently encoded into different features, i.e., the Reference feature and the positional feature. Via a matrix multiplication between the Reference feature and the positional feature, a bias logit map is generated to explicitly represent two kinds of biases. Then we rectify the logits of CLIP via a simple element-wise subtraction. To make the rectified results smoother and more contextual, we design a mask decoder which takes the feature of CLIP and the rectified logits as input and outputs a rectified segmentation mask with the help of Gumbel-Softmax operation. A contrastive loss based on the masked visual features and the text features of different classes is imposed, which makes the bias modeling and rectification process meaningful and effective. Extensive experiments on various benchmarks including PASCAL VOC, PASCAL Context, ADE20K, Cityscapes, and COCO Stuff demonstrate that our method performs favorably against previous state-of-the-arts. The implementation is available at: https://github.com/dogehhh/ReCLIP.
arxiv情報
著者 | Jingyun Wang,Guoliang Kang |
発行日 | 2025-01-08 13:49:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google