Harnessing Diffusion Models for Visual Perception with Meta Prompts

要約

視覚モデルの生成事前トレーニングの問題は、長年の難題として残っています。
現在、テキストから画像への (T2I) 拡散モデルは、テキスト入力に一致する高解像度画像の生成において顕著な熟練を示しており、これは大規模な画像とテキストのペアでの事前トレーニングによって可能になった偉業です。
これは自然な疑問につながります。拡散モデルを利用して視覚認識タスクに取り組むことができるでしょうか?
この論文では、視覚認識タスクに拡散モデルを利用するための、シンプルかつ効果的なスキームを提案します。
私たちの重要な洞察は、学習可能な埋め込み (メタ プロンプト) を事前トレーニングされた拡散モデルに導入して、知覚に適した特徴を抽出することです。
メタ プロンプトの効果は 2 つあります。
まず、T2I モデル内のテキスト埋め込みを直接置き換えて、特徴抽出中にタスク関連の機能をアクティブ化できます。
2 番目に、モデルが当面のタスクに最も適切な特徴に焦点を当てられるように、抽出された特徴を再配置するために使用されます。
さらに、拡散モデルの特性を最大限に活用する反復的改良トレーニング戦略を設計し、それによってより強力な視覚的特徴を生み出します。
さまざまなベンチマークにわたる広範な実験により、私たちのアプローチの有効性が検証されています。
私たちのアプローチは、NYU デプス V2 と KITTI の深度推定タスク、および CityScapes のセマンティック セグメンテーション タスクで新しいパフォーマンス記録を達成しました。
同時に、提案された方法は、ADE20K でのセマンティック セグメンテーションと COCO データセットでのポーズ推定において現在の最先端技術に匹敵する結果を達成し、その堅牢性と多用途性をさらに実証しています。

要約(オリジナル)

The issue of generative pretraining for vision models has persisted as a long-standing conundrum. At present, the text-to-image (T2I) diffusion model demonstrates remarkable proficiency in generating high-definition images matching textual inputs, a feat made possible through its pre-training on large-scale image-text pairs. This leads to a natural inquiry: can diffusion models be utilized to tackle visual perception tasks? In this paper, we propose a simple yet effective scheme to harness a diffusion model for visual perception tasks. Our key insight is to introduce learnable embeddings (meta prompts) to the pre-trained diffusion models to extract proper features for perception. The effect of meta prompts are two-fold. First, as a direct replacement of the text embeddings in the T2I models, it can activate task-relevant features during feature extraction. Second, it will be used to re-arrange the extracted features to ensures that the model focuses on the most pertinent features for the task on hand. Additionally, we design a recurrent refinement training strategy that fully leverages the property of diffusion models, thereby yielding stronger visual features. Extensive experiments across various benchmarks validate the effectiveness of our approach. Our approach achieves new performance records in depth estimation tasks on NYU depth V2 and KITTI, and in semantic segmentation task on CityScapes. Concurrently, the proposed method attains results comparable to the current state-of-the-art in semantic segmentation on ADE20K and pose estimation on COCO datasets, further exemplifying its robustness and versatility.

arxiv情報

著者 Qiang Wan,Zilong Huang,Bingyi Kang,Jiashi Feng,Li Zhang
発行日 2023-12-22 14:40:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク