Peekaboo: Text to Image Diffusion Models are Zero-Shot Segmentors

要約

最近、テキストから画像への拡散モデルは、自然言語プロンプトからリアルな画像を作成する際に顕著な能力を示しています。
ただし、セマンティックなローカリゼーションやグラウンディングにこれらのモデルを使用することを検討した研究はほとんどありません。
この研究では、ローカライゼーション情報にさらさずにトレーニングされた既製のテキストから画像への拡散モデルが、セグメンテーション固有の再トレーニングなしでどのようにしてさまざまな意味論的なフレーズを基礎付けることができるかを調査します。
自然言語プロンプトに基づいて条件付けされたセグメンテーション マスクを生成できる推論時間最適化プロセスを導入します。
私たちの提案であるピーカブーは、トレーニングを必要とせずに拡散モデルを活用した、この種初のゼロショット、オープン語彙、教師なしセマンティックグラウンディング技術です。
教師なしセマンティック セグメンテーションについては Pascal VOC データセット、参照セグメンテーションについては RefCOCO データセットで Peekaboo を評価し、有望な結果と競合する結果を示しています。
また、基盤となる拡散モデルが RGB 画像でのみトレーニングされたにもかかわらず、Peekaboo を使用して透明度のある画像を生成する方法も示します。これは、私たちの知る限りでは初めての試みです。
コードを含むプロジェクト ページをご覧ください: https://ryanndagreat.github.io/peekaboo

要約(オリジナル)

Recently, text-to-image diffusion models have shown remarkable capabilities in creating realistic images from natural language prompts. However, few works have explored using these models for semantic localization or grounding. In this work, we explore how an off-the-shelf text-to-image diffusion model, trained without exposure to localization information, can ground various semantic phrases without segmentation-specific re-training. We introduce an inference time optimization process capable of generating segmentation masks conditioned on natural language prompts. Our proposal, Peekaboo, is a first-of-its-kind zero-shot, open-vocabulary, unsupervised semantic grounding technique leveraging diffusion models without any training. We evaluate Peekaboo on the Pascal VOC dataset for unsupervised semantic segmentation and the RefCOCO dataset for referring segmentation, showing results competitive with promising results. We also demonstrate how Peekaboo can be used to generate images with transparency, even though the underlying diffusion model was only trained on RGB images – which to our knowledge we are the first to attempt. Please see our project page, including our code: https://ryanndagreat.github.io/peekaboo

arxiv情報

著者 Ryan Burgert,Kanchana Ranasinghe,Xiang Li,Michael S. Ryoo
発行日 2023-06-21 12:35:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク