要約
タイトル:単眼画像から制御可能な3D拡散モデルを学習する
要約:
– 拡散モデルは、2D領域における生成モデリングのためのデファクトアプローチになっているが、3Dに拡張することは困難である。
– 3D GANsは、単眼画像データセットでトレーニングするだけで驚くべき3Dに気づいた生成を示したが、画像合成を正確に制御するための簡単な方法を提供しない。
– Control3Diffは、拡散モデルと3D GANsの強みを組み合わせた、単眼データセットのための多目的で制御可能な3D気づいたイメージ合成のための3D拡散モデルである。
– Control3Diffは、基盤となる潜在分布を明示的にモデル化するため、拡散プロセス中に直接制御できる。
– さらに、Control3Diffは一般的であり、任意の種類の制御入力に適用可能であり、補助監視なしで同じ拡散目的でトレーニングできる。
– 様々な調整入力(画像、スケッチ、テキストプロンプトなど)を使用して、FFHQ、AFHQ、ShapeNetなどの標準的な画像生成ベンチマークでControl3Diffの有効性を検証することができる。
要約(オリジナル)
Diffusion models have recently become the de-facto approach for generative modeling in the 2D domain. However, extending diffusion models to 3D is challenging due to the difficulties in acquiring 3D ground truth data for training. On the other hand, 3D GANs that integrate implicit 3D representations into GANs have shown remarkable 3D-aware generation when trained only on single-view image datasets. However, 3D GANs do not provide straightforward ways to precisely control image synthesis. To address these challenges, We present Control3Diff, a 3D diffusion model that combines the strengths of diffusion models and 3D GANs for versatile, controllable 3D-aware image synthesis for single-view datasets. Control3Diff explicitly models the underlying latent distribution (optionally conditioned on external inputs), thus enabling direct control during the diffusion process. Moreover, our approach is general and applicable to any type of controlling input, allowing us to train it with the same diffusion objective without any auxiliary supervision. We validate the efficacy of Control3Diff on standard image generation benchmarks, including FFHQ, AFHQ, and ShapeNet, using various conditioning inputs such as images, sketches, and text prompts. Please see the project website (\url{https://jiataogu.me/control3diff}) for video comparisons.
arxiv情報
著者 | Jiatao Gu,Qingzhe Gao,Shuangfei Zhai,Baoquan Chen,Lingjie Liu,Josh Susskind |
発行日 | 2023-04-13 17:52:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI