要約
生成モデルは、密なマルチビューキャプチャへの依存を軽減することにより、新しいビュー合成(NVS)に大きな注目を集めています。
ただし、既存の方法は通常、従来のパラダイムに分類されます。このパラダイムは、生成モデルが最初に2Dで欠落している領域を完全に完成させ、その後、シーンを再構築するために3D回復技術が続きます。これにより、生成モデルはRGBデータからのみ3D構造を推測するのに苦労するため、過度に滑らかな表面と歪んだジオメトリがしばしばなります。
この論文では、密な3Dシーンの完了を通じて3D親和的な生成新規ビューの合成を達成する新しいフレームワークであるSceneCompleterを提案します。
SceneCompleterは、2つの重要なコンポーネントを使用して、視覚的コヒーレンスと3D結合的な生成シーンの完成の両方を実現します。(1)RGBD空間での新しいビューを共同で合成するジオメトリデュアルストリーム拡散モデル。
(2)参照画像からより全体的なシーンの理解をコードするシーンの埋め込み。
構造情報とテクスチャ情報を効果的に合法化することにより、私たちの方法は、多様なデータセット全体で生成された新規ビューの合成における優れた一貫性と妥当性を示しています。
プロジェクトページ:https://chen-wl20.github.io/scenecompleter
要約(オリジナル)
Generative models have gained significant attention in novel view synthesis (NVS) by alleviating the reliance on dense multi-view captures. However, existing methods typically fall into a conventional paradigm, where generative models first complete missing areas in 2D, followed by 3D recovery techniques to reconstruct the scene, which often results in overly smooth surfaces and distorted geometry, as generative models struggle to infer 3D structure solely from RGB data. In this paper, we propose SceneCompleter, a novel framework that achieves 3D-consistent generative novel view synthesis through dense 3D scene completion. SceneCompleter achieves both visual coherence and 3D-consistent generative scene completion through two key components: (1) a geometry-appearance dual-stream diffusion model that jointly synthesizes novel views in RGBD space; (2) a scene embedder that encodes a more holistic scene understanding from the reference image. By effectively fusing structural and textural information, our method demonstrates superior coherence and plausibility in generative novel view synthesis across diverse datasets. Project Page: https://chen-wl20.github.io/SceneCompleter
arxiv情報
著者 | Weiliang Chen,Jiayi Bi,Yuanhui Huang,Wenzhao Zheng,Yueqi Duan |
発行日 | 2025-06-12 17:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google