Unleashing Text-to-Image Diffusion Models for Visual Perception

要約

拡散モデル(DM)は生成モデルの新しい潮流となり、条件合成の強力な能力を発揮している。その中でも、大規模な画像とテキストのペアで事前学習されたテキスト-画像拡散モデルは、カスタマイズ可能なプロンプトによって高度に制御可能である。無条件生成モデルが低レベルの属性や細部に注目するのとは異なり、テキスト画像拡散モデルは、視覚言語による事前学習により、よりハイレベルな知識を含んでいる。本論文では、視覚認識タスクにおいて、事前に訓練されたテキストから画像への拡散モデルの意味情報を利用する新しいフレームワークであるVPD (Visual Perception with a pre-trained Diffusion model)を提案する。拡散ベースのパイプラインで事前学習されたノイズ除去オートエンコーダを使用するのではなく、単にバックボーンとして使用し、学習した知識を最大限に活用する方法を研究することを目的としています。具体的には、デノイズデコーダーに適切なテキスト入力を促し、アダプターでテキスト特徴を洗練させることで、事前学習段階との整合性を高め、視覚コンテンツがテキストプロンプトと相互に作用するようにします。また、視覚的特徴とテキスト特徴の間のクロスアテンションマップを利用して、明示的なガイダンスを提供することを提案します。他の事前学習方法と比較して、提案するVPDを用いることで、視覚言語事前学習された拡散モデルを下流の視覚知覚タスクに迅速に適応させることができることが示される。セマンティックセグメンテーション、参照画像セグメンテーション、深度推定に関する広範な実験により、本手法の有効性を実証する。特に、VPDはNYUv2深度推定で0.254 RMSE、RefCOCO-val参照画像分割で73.3% oIoUを達成し、これら2つのベンチマークで新記録を打ち立てた。コードは https://github.com/wl-zhao/VPD で公開されています。

要約(オリジナル)

Diffusion models (DMs) have become the new trend of generative models and have demonstrated a powerful ability of conditional synthesis. Among those, text-to-image diffusion models pre-trained on large-scale image-text pairs are highly controllable by customizable prompts. Unlike the unconditional generative models that focus on low-level attributes and details, text-to-image diffusion models contain more high-level knowledge thanks to the vision-language pre-training. In this paper, we propose VPD (Visual Perception with a pre-trained Diffusion model), a new framework that exploits the semantic information of a pre-trained text-to-image diffusion model in visual perception tasks. Instead of using the pre-trained denoising autoencoder in a diffusion-based pipeline, we simply use it as a backbone and aim to study how to take full advantage of the learned knowledge. Specifically, we prompt the denoising decoder with proper textual inputs and refine the text features with an adapter, leading to a better alignment to the pre-trained stage and making the visual contents interact with the text prompts. We also propose to utilize the cross-attention maps between the visual features and the text features to provide explicit guidance. Compared with other pre-training methods, we show that vision-language pre-trained diffusion models can be faster adapted to downstream visual perception tasks using the proposed VPD. Extensive experiments on semantic segmentation, referring image segmentation and depth estimation demonstrates the effectiveness of our method. Notably, VPD attains 0.254 RMSE on NYUv2 depth estimation and 73.3% oIoU on RefCOCO-val referring image segmentation, establishing new records on these two benchmarks. Code is available at https://github.com/wl-zhao/VPD

arxiv情報

著者 Wenliang Zhao,Yongming Rao,Zuyan Liu,Benlin Liu,Jie Zhou,Jiwen Lu
発行日 2023-03-03 18:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク