要約
私たちは、撮影されていないインターネット写真からビデオを生成する問題に対処します。
少数の入力画像がキーフレームとして機能し、モデルはそれらの間を補間して、カメラ間を移動するパスをシミュレートします。
ランダムな画像が与えられた場合、基礎となるジオメトリをキャプチャし、シーンのアイデンティティを認識し、カメラの位置と方向に関してフレームを関連付けるモデルの能力は、3D 構造とシーンのレイアウトの基本的な理解を反映しています。
ただし、Luma Dream Machine などの既存のビデオ モデルは、このタスクでは失敗します。
私たちは、ビデオの一貫性とマルチビュー インターネット写真の多様性を利用して、カメラ パラメーターなどの 3D 注釈なしでスケーラブルな 3D 対応ビデオ モデルをトレーニングする自己教師ありの方法を設計します。
私たちは、幾何学的および外観の一貫性の点で、私たちの方法がすべてのベースラインよりも優れていることを検証します。
また、3D ガウス スプラッティングなどのカメラ制御を可能にするモデルの利点アプリケーションも示します。
私たちの結果は、ビデオやマルチビューのインターネット写真などの 2D データのみを使用して、シーンレベルの 3D 学習をスケールアップできることを示唆しています。
要約(オリジナル)
We address the problem of generating videos from unposed internet photos. A handful of input images serve as keyframes, and our model interpolates between them to simulate a path moving between the cameras. Given random images, a model’s ability to capture underlying geometry, recognize scene identity, and relate frames in terms of camera position and orientation reflects a fundamental understanding of 3D structure and scene layout. However, existing video models such as Luma Dream Machine fail at this task. We design a self-supervised method that takes advantage of the consistency of videos and variability of multiview internet photos to train a scalable, 3D-aware video model without any 3D annotations such as camera parameters. We validate that our method outperforms all baselines in terms of geometric and appearance consistency. We also show our model benefits applications that enable camera control, such as 3D Gaussian Splatting. Our results suggest that we can scale up scene-level 3D learning using only 2D data such as videos and multiview internet photos.
arxiv情報
著者 | Gene Chou,Kai Zhang,Sai Bi,Hao Tan,Zexiang Xu,Fujun Luan,Bharath Hariharan,Noah Snavely |
発行日 | 2024-11-20 18:58:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google