Open-vocabulary Object Segmentation with Diffusion Models

要約

この論文の目標は、事前にトレーニングされたテキストから画像への拡散モデルから、セグメンテーション マップの形式で視覚言語の対応関係を抽出することです。つまり、テキストで説明されている対応する視覚エンティティの画像とセグメンテーション マスクを同時に生成します。
プロンプト。
私たちは以下の貢献を行っています。(i) 既存の安定拡散モデルを新しいグラウンディング モジュールと組み合わせます。このモジュールは、少数のオブジェクト カテゴリのみを使用して拡散モデルの視覚的およびテキストの埋め込み空間を調整するようにトレーニングできます。
(ii) 提案されたグラウンディング モジュールをトレーニングするために、{画像、セグメンテーション マスク、テキスト プロンプト} のトリプレットで構成されるデータセットを構築するための自動パイプラインを確立します。
(iii) テキストから画像への拡散モデルから生成された画像に対するオープン語彙基盤のパフォーマンスを評価し、このモジュールがトレーニング時に目に見えるものを超えたカテゴリのオブジェクトを適切にセグメント化できることを示します。
(iv) 合成セマンティック セグメンテーション データセットを構築するために拡張拡散モデルを採用し、そのようなデータセットで標準セグメンテーション モデルをトレーニングすると、ゼロショット セグメンテーション (ZS3) ベンチマークで競争力のあるパフォーマンスが実証され、導入の新たな機会が開かれることを示します。
識別タスクのための強力な普及モデル。

要約(オリジナル)

The goal of this paper is to extract the visual-language correspondence from a pre-trained text-to-image diffusion model, in the form of segmentation map, i.e., simultaneously generating images and segmentation masks for the corresponding visual entities described in the text prompt. We make the following contributions: (i) we pair the existing Stable Diffusion model with a novel grounding module, that can be trained to align the visual and textual embedding space of the diffusion model with only a small number of object categories; (ii) we establish an automatic pipeline for constructing a dataset, that consists of {image, segmentation mask, text prompt} triplets, to train the proposed grounding module; (iii) we evaluate the performance of open-vocabulary grounding on images generated from the text-to-image diffusion model and show that the module can well segment the objects of categories beyond seen ones at training time; (iv) we adopt the augmented diffusion model to build a synthetic semantic segmentation dataset, and show that, training a standard segmentation model on such dataset demonstrates competitive performance on the zero-shot segmentation(ZS3) benchmark, which opens up new opportunities for adopting the powerful diffusion model for discriminative tasks.

arxiv情報

著者 Ziyi Li,Qinye Zhou,Xiaoyun Zhang,Ya Zhang,Yanfeng Wang,Weidi Xie
発行日 2023-08-10 16:05:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク