Interpreting the Weight Space of Customized Diffusion Models

要約

カスタマイズされた拡散モデルの大規模なコレクションにまたがる重みの空間を調査します。
私たちは 60,000 を超えるモデルのデータセットを作成することでこの空間にデータを入力します。各モデルは、異なる人の視覚的アイデンティティを挿入するために微調整された基本モデルです。
これらの重みの基礎となる多様体を部分空間としてモデル化し、これを「weights2weights」と呼びます。
この空間の 3 つの直接的な応用例、サンプリング、編集、反転を示します。
まず、空間内の各点がアイデンティティに対応するため、そこから一連の重みをサンプリングすると、新しいアイデンティティをエンコードするモデルが得られます。
次に、アイデンティティの意味論的な編集 (例: ひげの追加) に対応するこの空間内の直線方向を見つけます。
これらの編集は、生成されたサンプル全体にわたって表示されます。
最後に、単一の画像をこの空間に反転すると、入力画像が分布外にある場合でも (絵画など)、現実的なアイデンティティが再構築されることを示します。
私たちの結果は、微調整された拡散モデルの重み空間が、解釈可能なアイデンティティの潜在空間として機能することを示しています。

要約(オリジナル)

We investigate the space of weights spanned by a large collection of customized diffusion models. We populate this space by creating a dataset of over 60,000 models, each of which is a base model fine-tuned to insert a different person’s visual identity. We model the underlying manifold of these weights as a subspace, which we term weights2weights. We demonstrate three immediate applications of this space — sampling, editing, and inversion. First, as each point in the space corresponds to an identity, sampling a set of weights from it results in a model encoding a novel identity. Next, we find linear directions in this space corresponding to semantic edits of the identity (e.g., adding a beard). These edits persist in appearance across generated samples. Finally, we show that inverting a single image into this space reconstructs a realistic identity, even if the input image is out of distribution (e.g., a painting). Our results indicate that the weight space of fine-tuned diffusion models behaves as an interpretable latent space of identities.

arxiv情報

著者 Amil Dravid,Yossi Gandelsman,Kuan-Chieh Wang,Rameen Abdal,Gordon Wetzstein,Alexei A. Efros,Kfir Aberman
発行日 2024-06-13 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク