Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D Data

要約

我々は、マルチビューの2Dデータのみを監視に使用しながら、3Dオブジェクトを出力する拡散ベースのジェネレータであるビューセット拡散を発表する。我々は、ビューセット(オブジェクトの複数の2Dビューの集合)と3Dモデルとの間に1対1の対応関係が存在することに注目する。したがって、ビューセットを生成するために拡散モデルを訓練しますが、ニューラルネットワークジェネレーターは、内部的に対応する3Dモデルを再構成するように設計されているため、ビューセットも生成されます。私たちは、与えられた物体のカテゴリーについて、多数のビューセットに拡散モデルを適合させる。結果として得られるジェネレーターは、0個、1個、またはそれ以上の入力ビューに条件付けすることができる。単一のビューを条件とした場合、タスクの曖昧さを考慮した3次元再構成を行い、入力に適合する複数の解をサンプリングすることができる。このモデルは、フィードフォワード方式で効率的に再構成を行い、1ビューセットあたり3つという少ないビューを用いて、レンダリング損失のみを用いて学習される。プロジェクトページ: szymanowiczs.github.io/viewset-diffusion.

要約(オリジナル)

We present Viewset Diffusion, a diffusion-based generator that outputs 3D objects while only using multi-view 2D data for supervision. We note that there exists a one-to-one mapping between viewsets, i.e., collections of several 2D views of an object, and 3D models. Hence, we train a diffusion model to generate viewsets, but design the neural network generator to reconstruct internally corresponding 3D models, thus generating those too. We fit a diffusion model to a large number of viewsets for a given category of objects. The resulting generator can be conditioned on zero, one or more input views. Conditioned on a single view, it performs 3D reconstruction accounting for the ambiguity of the task and allowing to sample multiple solutions compatible with the input. The model performs reconstruction efficiently, in a feed-forward manner, and is trained using only rendering losses using as few as three views per viewset. Project page: szymanowiczs.github.io/viewset-diffusion.

arxiv情報

著者 Stanislaw Szymanowicz,Christian Rupprecht,Andrea Vedaldi
発行日 2023-09-01 11:09:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク