要約
一般化可能な新規ビューシンシシス(NVS)の問題を検討します。これは、シーンごとの最適化なしに、まばらまたは装備されていない2D画像から光エアリスティックな新規ビューを生成することを目的としています。
このタスクは、不完全であいまいな2D観測から3D構造を推測する必要があるため、根本的に挑戦的なままです。
初期のアプローチは、通常、建築3D誘導バイアス(たとえば、ネットワーク設計にnerfや3DGSなどの明示的な3D表現を埋め込む)や、入力ビューとターゲットビューの両方のグラウンドトゥルースカメラポーズなど、強力な3D知識に依存しています。
最近の努力は、3D誘導バイアスまたは既知のカメラのポーズの入力ビューの依存を減らすことを求めていますが、3D知識の役割とその使用を回避する必要性に関する重要な質問は未調査のままです。
この作業では、3Dの知識に関する体系的な分析を実施し、重要な傾向を明らかにします。3D知識を必要とする方法のパフォーマンスは、データスケールとしてより多くの加速を行い、最終的には3D知識主導型のカウンターパートと同等のパフォーマンスを達成し、大規模データの時代に3D知識の依存を減らすことの重要性の増加を強調します。
この傾向によって動機付けられ、その後に、3D誘導バイアスを最小限に抑え、入力ビューとターゲットビューの両方に依存をもたらす新しいNVSフレームワークを提案します。
この3D知識を排除することにより、私たちの方法はデータのスケーリングを完全に活用し、トレーニング中に3Dの帰納的バイアスまたはポーズ注釈なしで、スパース2D画像から直接暗黙の3D認識を学習します。
広範な実験は、私たちのモデルがフォトリアリスティックで3D結合的な新規見解を生成し、ポーズ入力に依存する方法で同等のパフォーマンスを達成し、それによってデータ中心のパラダイムの実現可能性と有効性を検証することを示しています。
プロジェクトページ:https://pku-vcl-geometry.github.io/less3depend/。
要約(オリジナル)
We consider the problem of generalizable novel view synthesis (NVS), which aims to generate photorealistic novel views from sparse or even unposed 2D images without per-scene optimization. This task remains fundamentally challenging, as it requires inferring 3D structure from incomplete and ambiguous 2D observations. Early approaches typically rely on strong 3D knowledge, including architectural 3D inductive biases (e.g., embedding explicit 3D representations, such as NeRF or 3DGS, into network design) and ground-truth camera poses for both input and target views. While recent efforts have sought to reduce the 3D inductive bias or the dependence on known camera poses of input views, critical questions regarding the role of 3D knowledge and the necessity of circumventing its use remain under-explored. In this work, we conduct a systematic analysis on the 3D knowledge and uncover a critical trend: the performance of methods that requires less 3D knowledge accelerates more as data scales, eventually achieving performance on par with their 3D knowledge-driven counterparts, which highlights the increasing importance of reducing dependence on 3D knowledge in the era of large-scale data. Motivated by and following this trend, we propose a novel NVS framework that minimizes 3D inductive bias and pose dependence for both input and target views. By eliminating this 3D knowledge, our method fully leverages data scaling and learns implicit 3D awareness directly from sparse 2D images, without any 3D inductive bias or pose annotation during training. Extensive experiments demonstrate that our model generates photorealistic and 3D-consistent novel views, achieving even comparable performance with methods that rely on posed inputs, thereby validating the feasibility and effectiveness of our data-centric paradigm. Project page: https://pku-vcl-geometry.github.io/Less3Depend/ .
arxiv情報
著者 | Haoru Wang,Kai Ye,Yangyan Li,Wenzheng Chen,Baoquan Chen |
発行日 | 2025-06-11 15:57:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google