Viewpoint Textual Inversion: Discovering Scene Representations and 3D View Control in 2D Diffusion Models

要約

テキストから画像への拡散モデルは、印象的でリアルな画像を生成しますが、2D の監視のみから 3D 世界を表現することを学習するのでしょうか?
はい、特定の 3D シーン表現が安定拡散などのモデルのテキスト埋め込み空間にエンコードされていることを示します。
私たちのアプローチである Viewpoint Neural Textual Inversion (ViewNeTI) は、3D ビュー トークンを発見することです。
これらのトークンは、生成されたイメージの 3D 視点 (シーン内のレンダリング ポーズ) を制御します。
具体的には、連続的なカメラ視点パラメータを取得し、ビュー トークン (単語の埋め込み) を予測するように小さなニューラル マッパーをトレーニングします。
このトークンは、クロスアテンションによる拡散生成を条件付けて、必要なカメラ視点の画像を生成します。
ViewNeTI を評価ツールとして使用して、我々は 2 つの発見を報告します。第 1 に、テキスト潜在空間には、特定の 3D シーンに対する連続的なビュー制御多様体があります。
次に、すべてのシーンに対して一般化されたビュー制御多様体の証拠を見つけます。
ビュー トークンは 3D の「レンダリング」視点を制御するため、フリーズした 2D 拡散モデルにシーン表現が埋め込まれている可能性が高いと結論付けます。
最後に、3D ビジョン タスク、つまりビュー制御によるテキストから画像への生成、および単一画像からの新しいビュー合成に 3D シーン表現を活用します。このアプローチは、LPIPS の最先端を確立します。
コードは https://github.com/jmhb0/view_neti で入手できます

要約(オリジナル)

Text-to-image diffusion models generate impressive and realistic images, but do they learn to represent the 3D world from only 2D supervision? We demonstrate that yes, certain 3D scene representations are encoded in the text embedding space of models like Stable Diffusion. Our approach, Viewpoint Neural Textual Inversion (ViewNeTI), is to discover 3D view tokens; these tokens control the 3D viewpoint – the rendering pose in a scene – of generated images. Specifically, we train a small neural mapper to take continuous camera viewpoint parameters and predict a view token (a word embedding). This token conditions diffusion generation via cross-attention to produce images with the desired camera viewpoint. Using ViewNeTI as an evaluation tool, we report two findings: first, the text latent space has a continuous view-control manifold for particular 3D scenes; second, we find evidence for a generalized view-control manifold for all scenes. We conclude that since the view token controls the 3D `rendering’ viewpoint, there is likely a scene representation embedded in frozen 2D diffusion models. Finally, we exploit the 3D scene representations for 3D vision tasks, namely, view-controlled text-to-image generation, and novel view synthesis from a single image, where our approach sets state-of-the-art for LPIPS. Code available at https://github.com/jmhb0/view_neti

arxiv情報

著者 James Burgess,Kuan-Chieh Wang,Serena Yeung-Levy
発行日 2024-07-26 11:14:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク