要約
安定した仮想カメラ(SEVA)を提示します。これは、入力ビューとターゲットカメラの数が多数与えられて、シーンの新規ビューを作成するジェネラリスト拡散モデルです。
既存の作業は、特定のタスク構成に依存しながら、大きな視点の変更または一時的にスムーズなサンプルを生成するのに苦労しています。
私たちのアプローチは、テスト時にビュー合成タスク全体に一般化するシンプルなモデル設計、最適化されたトレーニングレシピ、および柔軟なサンプリング戦略を通じて、これらの制限を克服します。
その結果、私たちのサンプルは、追加の3D表現ベースの蒸留を必要とせずに高い一貫性を維持し、したがって野生のビュー合成を合理化します。
さらに、私たちの方法は、シームレスなループ閉鎖で30分間続く高品質のビデオを生成できることを示しています。
大規模なベンチマークは、SEVAが異なるデータセットと設定にわたって既存のメソッドを上回ることを示しています。
要約(オリジナル)
We present Stable Virtual Camera (Seva), a generalist diffusion model that creates novel views of a scene, given any number of input views and target cameras. Existing works struggle to generate either large viewpoint changes or temporally smooth samples, while relying on specific task configurations. Our approach overcomes these limitations through simple model design, optimized training recipe, and flexible sampling strategy that generalize across view synthesis tasks at test time. As a result, our samples maintain high consistency without requiring additional 3D representation-based distillation, thus streamlining view synthesis in the wild. Furthermore, we show that our method can generate high-quality videos lasting up to half a minute with seamless loop closure. Extensive benchmarking demonstrates that Seva outperforms existing methods across different datasets and settings.
arxiv情報
著者 | Jensen,Zhou,Hang Gao,Vikram Voleti,Aaryaman Vasishta,Chun-Han Yao,Mark Boss,Philip Torr,Christian Rupprecht,Varun Jampani |
発行日 | 2025-03-18 17:57:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google