要約
単一の RGB 画像が与えられたときにオブジェクトのカメラ視点を変更するためのフレームワークである Zero-1-to-3 を紹介します。
この制約の少ない設定で新しいビュー合成を実行するために、大規模な拡散モデルが自然画像について学習する幾何学的事前分布を利用します。
私たちの条件付き拡散モデルは、合成データセットを使用して相対的なカメラ視点の制御を学習します。これにより、指定されたカメラ変換の下で同じオブジェクトの新しい画像を生成できます。
合成データセットでトレーニングされていますが、私たちのモデルは、分布外のデータセットや、印象派の絵画を含む野生の画像に対する強力なゼロショット一般化機能を保持しています。
私たちの視点条件付き拡散アプローチは、単一の画像からの 3D 再構成のタスクにさらに使用できます。
定性的および定量的実験は、インターネット規模の事前トレーニングを活用することにより、私たちの方法が最先端のシングルビュー 3D 再構成および新しいビュー合成モデルよりも大幅に優れていることを示しています。
要約(オリジナル)
We introduce Zero-1-to-3, a framework for changing the camera viewpoint of an object given just a single RGB image. To perform novel view synthesis in this under-constrained setting, we capitalize on the geometric priors that large-scale diffusion models learn about natural images. Our conditional diffusion model uses a synthetic dataset to learn controls of the relative camera viewpoint, which allow new images to be generated of the same object under a specified camera transformation. Even though it is trained on a synthetic dataset, our model retains a strong zero-shot generalization ability to out-of-distribution datasets as well as in-the-wild images, including impressionist paintings. Our viewpoint-conditioned diffusion approach can further be used for the task of 3D reconstruction from a single image. Qualitative and quantitative experiments show that our method significantly outperforms state-of-the-art single-view 3D reconstruction and novel view synthesis models by leveraging Internet-scale pre-training.
arxiv情報
著者 | Ruoshi Liu,Rundi Wu,Basile Van Hoorick,Pavel Tokmakov,Sergey Zakharov,Carl Vondrick |
発行日 | 2023-03-20 17:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google