要約
360 {\ deg}ビデオは、ダイナミックな視覚世界を表す有望な媒体として浮上しています。
標準的なカメラの「トンネルビジョン」と比較して、それらの境界のない視野は、私たちの周囲のより完全な視点を提供します。
既存のビデオモデルは標準的なビデオの制作に優れていますが、完全なパノラマビデオを生成する能力はとらえどころのないままです。
この論文では、ビデオから360 {\ deg}の生成のタスクを調査します。パースペクティブビデオを入力として考慮して、私たちの目標は、元のビデオと一致する完全なパノラマビデオを生成することです。
従来のビデオ生成タスクとは異なり、出力の視野は大幅に大きく、モデルは、シーンの空間レイアウトと、時空間の一貫性を維持するオブジェクトのダイナミクスの両方を深く理解する必要があります。
これらの課題に対処するために、最初にオンラインで入手可能な豊富な360 {\ deg}ビデオを活用し、ペアワイズトレーニングデータをキュレートするための高品質のデータフィルタリングパイプラインを開発します。
次に、学習プロセスを促進し、360 {\ deg}ビデオ生成の品質を向上させるために、一連のジオメトリおよびモーションアウェア操作を慎重に設計します。
実験結果は、私たちのモデルがワイルドの観点からも現実的でコヒーレントな360 {\ deg}ビデオを生成できることを示しています。
さらに、ビデオの安定化、カメラの視点コントロール、インタラクティブな視覚的質問の回答など、潜在的なアプリケーションを紹介します。
要約(オリジナル)
360{\deg} videos have emerged as a promising medium to represent our dynamic visual world. Compared to the ‘tunnel vision’ of standard cameras, their borderless field of view offers a more complete perspective of our surroundings. While existing video models excel at producing standard videos, their ability to generate full panoramic videos remains elusive. In this paper, we investigate the task of video-to-360{\deg} generation: given a perspective video as input, our goal is to generate a full panoramic video that is consistent with the original video. Unlike conventional video generation tasks, the output’s field of view is significantly larger, and the model is required to have a deep understanding of both the spatial layout of the scene and the dynamics of objects to maintain spatio-temporal consistency. To address these challenges, we first leverage the abundant 360{\deg} videos available online and develop a high-quality data filtering pipeline to curate pairwise training data. We then carefully design a series of geometry- and motion-aware operations to facilitate the learning process and improve the quality of 360{\deg} video generation. Experimental results demonstrate that our model can generate realistic and coherent 360{\deg} videos from in-the-wild perspective video. In addition, we showcase its potential applications, including video stabilization, camera viewpoint control, and interactive visual question answering.
arxiv情報
著者 | Rundong Luo,Matthew Wallingford,Ali Farhadi,Noah Snavely,Wei-Chiu Ma |
発行日 | 2025-04-10 17:51:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google