From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos

要約

オブジェクトやシーンの 3 次元 (3D) 理解は、人間が世界と対話する能力において重要な役割を果たしており、コンピューター ビジョン、グラフィックス、ロボット工学の活発な研究分野となっています。
大規模な合成およびオブジェクト中心の 3D データセットは、オブジェクトを 3D で理解するモデルのトレーニングに効果的であることが示されています。
ただし、大規模なデータが不足しているため、同様のアプローチを現実世界のオブジェクトやシーンに適用することは困難です。
ビデオは現実世界の 3D データの潜在的なソースですが、同じコンテンツの多様でありながら対応するビューを見つけることは、大規模になると困難であることがわかっています。
さらに、標準ビデオには、キャプチャ時に決定される固定視点が付属しています。
これにより、より多様で潜在的に有用な視点からシーンにアクセスする機能が制限されます。
私たちは、大規模な 360 度ビデオがこれらの制限に対処して、さまざまなビューからのスケーラブルな対応フレームを提供できると主張します。
この論文では、360 度ビデオ データセットである 360-1M と、さまざまな視点から大規模に対応するフレームを効率的に見つけるプロセスを紹介します。
拡散ベースのモデルである Odin を 360-1M でトレーニングします。
これまでで最大の実世界のマルチビュー データセットを活用した Odin は、現実世界のシーンの新しいビューを自由に生成できます。
以前の方法とは異なり、Odin は環境内でカメラを移動できるため、モデルがシーンのジオメトリとレイアウトを推測できるようになります。
さらに、標準的な新規ビュー合成および 3D 再構成ベンチマークでもパフォーマンスが向上していることを示しています。

要約(オリジナル)

Three-dimensional (3D) understanding of objects and scenes play a key role in humans’ ability to interact with the world and has been an active area of research in computer vision, graphics, and robotics. Large scale synthetic and object-centric 3D datasets have shown to be effective in training models that have 3D understanding of objects. However, applying a similar approach to real-world objects and scenes is difficult due to a lack of large-scale data. Videos are a potential source for real-world 3D data, but finding diverse yet corresponding views of the same content has shown to be difficult at scale. Furthermore, standard videos come with fixed viewpoints, determined at the time of capture. This restricts the ability to access scenes from a variety of more diverse and potentially useful perspectives. We argue that large scale 360 videos can address these limitations to provide: scalable corresponding frames from diverse views. In this paper, we introduce 360-1M, a 360 video dataset, and a process for efficiently finding corresponding frames from diverse viewpoints at scale. We train our diffusion-based model, Odin, on 360-1M. Empowered by the largest real-world, multi-view dataset to date, Odin is able to freely generate novel views of real-world scenes. Unlike previous methods, Odin can move the camera through the environment, enabling the model to infer the geometry and layout of the scene. Additionally, we show improved performance on standard novel view synthesis and 3D reconstruction benchmarks.

arxiv情報

著者 Matthew Wallingford,Anand Bhattad,Aditya Kusupati,Vivek Ramanujan,Matt Deitke,Sham Kakade,Aniruddha Kembhavi,Roozbeh Mottaghi,Wei-Chiu Ma,Ali Farhadi
発行日 2024-12-10 18:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク