Ref-Diff: Zero-shot Referring Image Segmentation with Generative Models

要約

ゼロショット参照画像セグメンテーションは、与えられた参照記述に基づいてインスタンスセグメンテーションマスクを見つけることを目的とするため、このタイプのペアデータで訓練することなく、挑戦的なタスクである。現在のゼロショット手法は、主に事前に学習された識別モデル(CLIPなど)を使用することに重点を置いている。しかし、我々は、生成モデル(例えば、安定拡散)が、このタスクではほとんど研究されていない、様々な視覚要素とテキスト記述の間の関係を潜在的に理解していることを確認している。本研究では、生成モデルからのきめ細かなマルチモーダル情報を活用する、このタスクのための新しい参照拡散セグメンテーション器(Ref-Diff)を導入する。提案生成器を用いない場合、生成モデルのみで、既存のSOTA弱教師付きモデルに匹敵する性能を達成できることを実証する。生成モデルと識別モデルの両方を組み合わせた場合、我々のRef-Diffはこれらの競合手法を大きく上回る。これは、生成モデルがこのタスクにも有効であり、より良い参照セグメンテーションのために識別モデルを補完できることを示している。我々のコードはhttps://github.com/kodenii/Ref-Diff。

要約(オリジナル)

Zero-shot referring image segmentation is a challenging task because it aims to find an instance segmentation mask based on the given referring descriptions, without training on this type of paired data. Current zero-shot methods mainly focus on using pre-trained discriminative models (e.g., CLIP). However, we have observed that generative models (e.g., Stable Diffusion) have potentially understood the relationships between various visual elements and text descriptions, which are rarely investigated in this task. In this work, we introduce a novel Referring Diffusional segmentor (Ref-Diff) for this task, which leverages the fine-grained multi-modal information from generative models. We demonstrate that without a proposal generator, a generative model alone can achieve comparable performance to existing SOTA weakly-supervised models. When we combine both generative and discriminative models, our Ref-Diff outperforms these competing methods by a significant margin. This indicates that generative models are also beneficial for this task and can complement discriminative models for better referring segmentation. Our code is publicly available at https://github.com/kodenii/Ref-Diff.

arxiv情報

著者 Minheng Ni,Yabo Zhang,Kailai Feng,Xiaoming Li,Yiwen Guo,Wangmeng Zuo
発行日 2023-09-01 05:57:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク