要約
潜在拡散モデル (LDM) は、リアルな画像を生成する優れた能力を示しますが、これらのモデルの内部動作は依然として謎に満ちています。
明示的な深度情報を持たない画像のみでトレーニングされた場合でも、通常は 3D シーンの一貫した画像が出力されます。
この研究では、基本的な解釈可能性の問題、つまり LDM は単純なシーン ジオメトリの内部表現を作成して使用するのかを調査します。
線形プローブを使用すると、LDM の内部活性化が 3D 深度データと顕著な物体と背景の区別の両方の線形表現をエンコードしているという証拠が見つかりました。
これらの表現は、人間がノイズの多い画像を簡単に理解できるようになるよりずっと前の、ノイズ除去プロセスの驚くほど早い段階で出現します。
介入実験では、これらの表現が画像合成において因果的な役割を果たしており、LDM 出力の単純な高レベル編集に使用できる可能性があることがさらに示されています。
要約(オリジナル)
Latent diffusion models (LDMs) exhibit an impressive ability to produce realistic images, yet the inner workings of these models remain mysterious. Even when trained purely on images without explicit depth information, they typically output coherent pictures of 3D scenes. In this work, we investigate a basic interpretability question: does an LDM create and use an internal representation of simple scene geometry? Using linear probes, we find evidence that the internal activations of the LDM encode linear representations of both 3D depth data and a salient-object / background distinction. These representations appear surprisingly early in the denoising process$-$well before a human can easily make sense of the noisy images. Intervention experiments further indicate these representations play a causal role in image synthesis, and may be used for simple high-level editing of an LDM’s output.
arxiv情報
著者 | Yida Chen,Fernanda Viégas,Martin Wattenberg |
発行日 | 2023-06-09 07:34:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google