Implicit and Explicit Language Guidance for Diffusion-based Visual Perception

要約

テキストから画像への拡散モデルは、条件付き画像合成において強力な能力を示しています。
大規模な視覚言語の事前トレーニングにより、拡散モデルはさまざまなテキスト プロンプトの下で豊かなテクスチャと合理的な構造を備えた高品質の画像を生成できます。
ただし、事前にトレーニングされた拡散モデルを視覚に適応させることは未解決の問題です。
この論文では、IEDP と呼ばれる、拡散ベースの知覚のための暗黙的および明示的言語ガイダンス フレームワークを提案します。
IEDP は、暗黙的言語ガイダンス ブランチと明示的言語ガイダンス ブランチで構成されます。
暗黙的ブランチは、明示的なテキスト プロンプトを使用せずに、拡散モデルに供給される暗黙的テキスト埋め込みを直接生成するために、フリーズされた CLIP 画像エンコーダーを使用します。
明示的な分岐では、対応する画像のグラウンド トゥルース ラベルをテキスト プロンプトとして利用して、拡散モデルの特徴抽出を条件付けします。
トレーニング中に、これら 2 つのブランチのモデルの重みを共有することで、拡散モデルを共同トレーニングします。
その結果、暗黙的分岐と明示的分岐が共同して特徴学習をガイドできます。
推論中は、最終的な予測に暗黙的な分岐のみを使用します。これには、グラウンド トゥルース ラベルは必要ありません。
実験は、セマンティック セグメンテーションと深度推定を含む 2 つの典型的な知覚タスクで実行されます。
当社の IEDP は、両方のタスクで有望なパフォーマンスを達成します。
セマンティック セグメンテーションに関して、当社の IEDP は AD20K 検証セットで 55.9% の mIoU$^\text{ss}$ スコアを獲得しており、ベースライン手法 VPD を 2.2% 上回っています。
深度推定に関しては、当社の IEDP はベースライン手法 VPD を上回り、相対ゲインは 11.0% です。

要約(オリジナル)

Text-to-image diffusion models have shown powerful ability on conditional image synthesis. With large-scale vision-language pre-training, diffusion models are able to generate high-quality images with rich texture and reasonable structure under different text prompts. However, it is an open problem to adapt the pre-trained diffusion model for visual perception. In this paper, we propose an implicit and explicit language guidance framework for diffusion-based perception, named IEDP. Our IEDP comprises an implicit language guidance branch and an explicit language guidance branch. The implicit branch employs frozen CLIP image encoder to directly generate implicit text embeddings that are fed to diffusion model, without using explicit text prompts. The explicit branch utilizes the ground-truth labels of corresponding images as text prompts to condition feature extraction of diffusion model. During training, we jointly train diffusion model by sharing the model weights of these two branches. As a result, implicit and explicit branches can jointly guide feature learning. During inference, we only employ implicit branch for final prediction, which does not require any ground-truth labels. Experiments are performed on two typical perception tasks, including semantic segmentation and depth estimation. Our IEDP achieves promising performance on both tasks. For semantic segmentation, our IEDP has the mIoU$^\text{ss}$ score of 55.9% on AD20K validation set, which outperforms the baseline method VPD by 2.2%. For depth estimation, our IEDP outperforms the baseline method VPD with a relative gain of 11.0%.

arxiv情報

著者 Hefeng Wang,Jiale Cao,Jin Xie,Aiping Yang,Yanwei Pang
発行日 2024-04-22 13:49:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク