要約
この論文では、一連の画像内の共通の意味論的オブジェクトを共同セグメント化することについて研究します。
既存の作品は、視覚的特徴に含まれる暗黙的な意味情報をマイニングするために慎重に設計されたネットワークに依存するか、トレーニングのために追加のデータ (つまり、分類ラベル) を必要とします。
この論文では、このタスクに対照的言語イメージ事前トレーニング フレームワーク (CLIP) を活用します。
セットからの各画像を独立して処理するバックボーン セグメンテーション ネットワークを使用して、CLIP からのセマンティクスをバックボーン特徴に導入し、3 つの主要なモジュールを使用して粗い方法から細かい方法でそれらを洗練します。 i) 画像セット特徴対応モジュール、グローバル エンコード
画像セットの一貫した意味情報。
ii) CLIP インタラクション モジュール。CLIP マイニングされたイメージ セットの共通セマンティクスを使用して、バックボーン機能を改良します。
iii) CLIP 正規化モジュール。この共通セグメンテーション タスクに向けて CLIP を描画し、最適な CLIP セマンティクスを特定し、それを使用してバックボーン機能を正規化します。
4 つの標準的な共セグメンテーション ベンチマーク データセットでの実験では、私たちの手法のパフォーマンスが最先端の手法を上回ることが示されています。
要約(オリジナル)
This paper studies co-segmenting the common semantic object in a set of images. Existing works either rely on carefully engineered networks to mine the implicit semantic information in visual features or require extra data (i.e., classification labels) for training. In this paper, we leverage the contrastive language-image pre-training framework (CLIP) for the task. With a backbone segmentation network that independently processes each image from the set, we introduce semantics from CLIP into the backbone features, refining them in a coarse-to-fine manner with three key modules: i) an image set feature correspondence module, encoding global consistent semantic information of the image set; ii) a CLIP interaction module, using CLIP-mined common semantics of the image set to refine the backbone feature; iii) a CLIP regularization module, drawing CLIP towards this co-segmentation task, identifying the best CLIP semantic and using it to regularize the backbone feature. Experiments on four standard co-segmentation benchmark datasets show that the performance of our method outperforms state-of-the-art methods.
arxiv情報
著者 | Xin Duan,Yan Yang,Liyuan Pan,Xiabi Liu |
発行日 | 2023-08-22 15:27:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google