Generalizable Semantic Vision Query Generation for Zero-shot Panoptic and Semantic Segmentation

要約

ゼロショット パノプティック セグメンテーション (ZPS) は、トレーニング中に目に見えないカテゴリを含む画像なしで前景インスタンスと背景のものを認識することを目的としています。
視覚的なデータが希薄であり、目に見えるカテゴリーから目に見えないカテゴリーまで一般化することが難しいため、この作業は依然として困難です。
目に見えないクラスをよりよく一般化するために、一般化可能なセマンティック ビジョン クエリを生成する条件付きトークン アライメントとサイクル変換 (CONCAT) を提案します。
まず、特徴抽出器が CON によってトレーニングされ、ターゲット クエリを提供するためのビジョンとセマンティクスをリンクします。
正式には、CON は、完全なマスクされたイメージから抽出された CLIP ビジュアル CLS トークンとセマンティック クエリを調整することが提案されています。
目に見えないカテゴリの不足に対処するには、ジェネレーターが必要です。
ただし、疑似ビジョン クエリ、つまり目に見えないカテゴリのビジョン クエリを合成する際のギャップの 1 つは、セマンティック埋め込みを通じてきめの細かい視覚的な詳細を記述することです。
したがって、意味論的ビジョンおよびビジョン意味論的な方法でジェネレーターをトレーニングするために CAT にアプローチします。
セマンティックビジョンでは、セグメントを含む対応するターゲットを含む擬似ビジョンクエリをプルし、セグメントのないターゲットを押し出すことで、ビジョンの高粒度をモデル化するビジュアルクエリコントラストが提案されています。
生成されたクエリがセマンティック情報を確実に保持するために、ビジョンセマンティックでは、擬似ビジョン クエリがセマンティックにマッピングされ、実際のセマンティック埋め込みによって監視されます。
ZPS の実験では、SOTA を上回る 5.2% の hPQ 増加を達成しました。
また、帰納的 ZPS とオープンボキャブラリーのセマンティックセグメンテーションも調査し、テストを 2 倍高速にしながら比較結果を取得します。

要約(オリジナル)

Zero-shot Panoptic Segmentation (ZPS) aims to recognize foreground instances and background stuff without images containing unseen categories in training. Due to the visual data sparsity and the difficulty of generalizing from seen to unseen categories, this task remains challenging. To better generalize to unseen classes, we propose Conditional tOken aligNment and Cycle trAnsiTion (CONCAT), to produce generalizable semantic vision queries. First, a feature extractor is trained by CON to link the vision and semantics for providing target queries. Formally, CON is proposed to align the semantic queries with the CLIP visual CLS token extracted from complete and masked images. To address the lack of unseen categories, a generator is required. However, one of the gaps in synthesizing pseudo vision queries, ie, vision queries for unseen categories, is describing fine-grained visual details through semantic embeddings. Therefore, we approach CAT to train the generator in semantic-vision and vision-semantic manners. In semantic-vision, visual query contrast is proposed to model the high granularity of vision by pulling the pseudo vision queries with the corresponding targets containing segments while pushing those without segments away. To ensure the generated queries retain semantic information, in vision-semantic, the pseudo vision queries are mapped back to semantic and supervised by real semantic embeddings. Experiments on ZPS achieve a 5.2% hPQ increase surpassing SOTA. We also examine inductive ZPS and open-vocabulary semantic segmentation and obtain comparative results while being 2 times faster in testing.

arxiv情報

著者 Jialei Chen,Daisuke Deguchi,Chenkai Zhang,Hiroshi Murase
発行日 2024-02-21 10:57:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク