要約
2D 画像からマルチビュー 3D への階層的確率的アプローチを導入します。拡散「事前」が目に見えない 3D ジオメトリをモデル化し、それが拡散「デコーダ」を条件付けして被写体の新しいビューを生成します。
マルチビュー画像フォーマットのポイントマップベースの幾何学的表現を使用して、複数のターゲットビューの同時生成を調整します。
ソース カメラに対してターゲット カメラの姿勢が固定されていると仮定し、ターゲットごとの幾何学的特徴の予測可能な分布を構築することで、ビュー間の対応を容易にします。
ノベルビュー合成に対する当社のモジュール式のジオメトリ主導のアプローチ (「unPIC」と呼ばれます) は、ObjaverseXL の保持されたオブジェクトや Google のさまざまな現実世界のオブジェクトにおいて、CAT3D や One-2-3-45 などの SoTA ベースラインを上回ります。
スキャンされたオブジェクト、Amazon Berkeley オブジェクトをデジタル ツイン カタログに追加します。
要約(オリジナル)
We introduce a hierarchical probabilistic approach to go from a 2D image to multiview 3D: a diffusion ‘prior’ models the unseen 3D geometry, which then conditions a diffusion ‘decoder’ to generate novel views of the subject. We use a pointmap-based geometric representation in a multiview image format to coordinate the generation of multiple target views simultaneously. We facilitate correspondence between views by assuming fixed target camera poses relative to the source camera, and constructing a predictable distribution of geometric features per target. Our modular, geometry-driven approach to novel-view synthesis (called ‘unPIC’) beats SoTA baselines such as CAT3D and One-2-3-45 on held-out objects from ObjaverseXL, as well as real-world objects ranging from Google Scanned Objects, Amazon Berkeley Objects, to the Digital Twin Catalog.
arxiv情報
著者 | Rishabh Kabra,Drew A. Hudson,Sjoerd van Steenkiste,Joao Carreira,Niloy J. Mitra |
発行日 | 2024-12-13 16:46:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google