Readout Guidance: Learning Control from Diffusion Features

要約

テキストから画像への拡散モデルを学習された信号で制御する手法であるリードアウトガイダンスを紹介する。読み出しガイダンスは、事前に学習されたフリーズした拡散モデルの特徴から、タイムステップ毎に信号を抽出するように学習された軽量ネットワークである読み出しヘッドを使用する。これらのリードアウトは、ポーズ、深度、エッジなどの単一画像の特性、または対応関係や外観の類似性などの複数の画像を関連付ける高次の特性をエンコードすることができる。さらに、読み出し推定値をユーザー定義のターゲットと比較し、読み出しヘッドを通して勾配を逆伝播することにより、これらの推定値をサンプリングプロセスのガイドに使用することができる。条件生成のための先行手法と比較して、リードアウトガイダンスは、追加されるパラメータとトレーニングサンプルの数が大幅に少なく、単一のフレームワークの下で、単一のアーキテクチャとサンプリング手順で、様々な形態の条件制御を再現するための便利でシンプルなレシピを提供します。我々は、ドラッグベースの操作、同一性一貫生成、空間的に整列した制御のアプリケーションにおいて、これらの利点を紹介する。プロジェクトページ: https://readout-guidance.github.io.

要約(オリジナル)

We present Readout Guidance, a method for controlling text-to-image diffusion models with learned signals. Readout Guidance uses readout heads, lightweight networks trained to extract signals from the features of a pre-trained, frozen diffusion model at every timestep. These readouts can encode single-image properties, such as pose, depth, and edges; or higher-order properties that relate multiple images, such as correspondence and appearance similarity. Furthermore, by comparing the readout estimates to a user-defined target, and back-propagating the gradient through the readout head, these estimates can be used to guide the sampling process. Compared to prior methods for conditional generation, Readout Guidance requires significantly fewer added parameters and training samples, and offers a convenient and simple recipe for reproducing different forms of conditional control under a single framework, with a single architecture and sampling procedure. We showcase these benefits in the applications of drag-based manipulation, identity-consistent generation, and spatially aligned control. Project page: https://readout-guidance.github.io.

arxiv情報

著者 Grace Luo,Trevor Darrell,Oliver Wang,Dan B Goldman,Aleksander Holynski
発行日 2023-12-04 18:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク