You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale

要約

最近の 3D 生成モデルは通常、3D コンテンツの作成に限定されたスケールの 3D「ゴールドラベル」または 2D 拡散事前分布に依存しています。
ただし、スケーラブルな学習パラダイムが欠如しているため、制約された 3D 事前分布によってパフォーマンスの上限が決まります。
この研究では、オープンワールド 3D 作成のために大規模なインターネット ビデオでトレーニングされた視覚条件付きマルチビュー拡散モデルである See3D を紹介します。
このモデルは、急速に増加する膨大なビデオ データからビジュアル コンテンツだけを見て 3D 知識を得る、つまり「見ただけで理解できる」ことを目的としています。
これを達成するために、まずソースビデオからマルチビューの不一致や不十分な観察を自動的に除外する提案されたデータキュレーションパイプラインを使用してトレーニングデータをスケールアップします。
これにより、WebVi3D と呼ばれる、1,600 万のビデオ クリップからの 3 億 2,000 万のフレームを含む、高品質で多様性に富んだ大規模なマルチビュー画像データセットが生成されます。
それにもかかわらず、明示的な 3D ジオメトリやカメラ ポーズの注釈なしでビデオから一般的な 3D 事前分布を学習することは簡単ではなく、Web スケール ビデオのポーズに注釈を付けるのは法外に高価です。
ポーズ条件の必要性を排除するために、革新的な視覚条件を導入します。これは、マスクされたビデオ データに時間依存のノイズを追加することによって生成される純粋な 2D 誘導視覚信号です。
最後に、高忠実度 3D 生成のために See3D をワーピングベースのパイプラインに統合することにより、新しい視覚条件付き 3D 生成フレームワークを導入します。
単一再構築ベンチマークとスパース再構築ベンチマークに関する数値的および視覚的な比較では、コスト効率が高くスケーラブルなビデオ データでトレーニングされた See3D が、注目すべきゼロショットおよびオープンワールド生成機能を実現し、コストがかかり制約のある 3D データセットでトレーニングされたモデルを著しく上回るパフォーマンスを示しています。
弊社のプロジェクト ページを参照してください: https://vision.baai.ac.cn/see3d

要約(オリジナル)

Recent 3D generation models typically rely on limited-scale 3D `gold-labels’ or 2D diffusion priors for 3D content creation. However, their performance is upper-bounded by constrained 3D priors due to the lack of scalable learning paradigms. In this work, we present See3D, a visual-conditional multi-view diffusion model trained on large-scale Internet videos for open-world 3D creation. The model aims to Get 3D knowledge by solely Seeing the visual contents from the vast and rapidly growing video data — You See it, You Got it. To achieve this, we first scale up the training data using a proposed data curation pipeline that automatically filters out multi-view inconsistencies and insufficient observations from source videos. This results in a high-quality, richly diverse, large-scale dataset of multi-view images, termed WebVi3D, containing 320M frames from 16M video clips. Nevertheless, learning generic 3D priors from videos without explicit 3D geometry or camera pose annotations is nontrivial, and annotating poses for web-scale videos is prohibitively expensive. To eliminate the need for pose conditions, we introduce an innovative visual-condition – a purely 2D-inductive visual signal generated by adding time-dependent noise to the masked video data. Finally, we introduce a novel visual-conditional 3D generation framework by integrating See3D into a warping-based pipeline for high-fidelity 3D generation. Our numerical and visual comparisons on single and sparse reconstruction benchmarks show that See3D, trained on cost-effective and scalable video data, achieves notable zero-shot and open-world generation capabilities, markedly outperforming models trained on costly and constrained 3D datasets. Please refer to our project page at: https://vision.baai.ac.cn/see3d

arxiv情報

著者 Baorui Ma,Huachen Gao,Haoge Deng,Zhengxiong Luo,Tiejun Huang,Lulu Tang,Xinlong Wang
発行日 2024-12-09 17:44:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク