要約
従来の深さのないマルチビューデータセットは、メトリックキャリブレーションなしで動く単眼カメラを使用してキャプチャされます。
The scales of camera positions in this monocular setting are ambiguous.
以前の方法では、さまざまなアドホック正規化前処理手順を介してマルチビューデータのスケールのあいまいさが認められていますが、アプリケーションに対する誤ったシーンスケールの効果を直接分析していません。
この論文では、生成的な新規ビュー合成方法(GNV)を訓練するために使用される場合、スケールのあいまいさの効果を理解し、対処しようとしています。
GNVSでは、シーンまたはオブジェクトの新しいビューは、単一の画像を考慮して最小限に合成でき、したがって、生成方法の使用を必要とします。
これらのモデルの生成性は、タスクの迷惑変数として機能するシーンスケールの不確実性を含む、不確実性のすべての側面をキャプチャします。
結果のモデルに対する効果を分離することにより、単一の画像からサンプリングされた場合、GNVのシーンスケールのあいまいさの効果を研究し、これらの直感に基づいて、生成されたビューのスケールの不一致を測定する新しいメトリックを定義します。
次に、GNVSモデルと共同でシーンスケールをエンドツーエンドの方法で推定するためのフレームワークを提案します。
経験的に、私たちの方法は、以前のスケール正規化方法の複雑さや欠点なしに生成されたビューのスケールの矛盾を低下させることを示します。
さらに、このあいまいさを削除すると、結果のGNVSモデルの生成された画質が向上することを示します。
要約(オリジナル)
Conventional depth-free multi-view datasets are captured using a moving monocular camera without metric calibration. The scales of camera positions in this monocular setting are ambiguous. Previous methods have acknowledged scale ambiguity in multi-view data via various ad-hoc normalization pre-processing steps, but have not directly analyzed the effect of incorrect scene scales on their application. In this paper, we seek to understand and address the effect of scale ambiguity when used to train generative novel view synthesis methods (GNVS). In GNVS, new views of a scene or object can be minimally synthesized given a single image and are, thus, unconstrained, necessitating the use of generative methods. The generative nature of these models captures all aspects of uncertainty, including any uncertainty of scene scales, which act as nuisance variables for the task. We study the effect of scene scale ambiguity in GNVS when sampled from a single image by isolating its effect on the resulting models and, based on these intuitions, define new metrics that measure the scale inconsistency of generated views. We then propose a framework to estimate scene scales jointly with the GNVS model in an end-to-end fashion. Empirically, we show that our method reduces the scale inconsistency of generated views without the complexity or downsides of previous scale normalization methods. Further, we show that removing this ambiguity improves generated image quality of the resulting GNVS model.
arxiv情報
著者 | Fereshteh Forghani,Jason J. Yu,Tristan Aumentado-Armstrong,Konstantinos G. Derpanis,Marcus A. Brubaker |
発行日 | 2025-03-19 16:56:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google