要約
モノクラービデオから3Dシーンを効率的に再構築することは、仮想現実、ロボット工学、シーンの理解に不可欠なコンピュータービジョンにおける中心的な課題のままです。
最近、カメラのポーズなしのフレームごとのプログレッシブ再構成が一般的に採用され、長いビデオにスケーリングすると、高い計算オーバーヘッドと複合エラーが発生します。
これらの問題を克服するために、VideLifterを紹介します。VideLifterは、極端な効率とSOTAの品質の両方を達成するために、ローカルからグローバルへの戦略をフラグメントベースで活用する新しいビデオから3Dパイプラインです。
ローカルでは、ビデオリフターレバレッジ学習可能な3Dプライアーは、断片を登録し、強制された炎症間整合性と最適化効率を備えたその後の3Dガウス初期化に不可欠な情報を抽出します。
グローバルに、それは、累積誤差を効率的に軽減しながらグローバルな一貫性を確保するために、漏れ間アライメント、ガウスポイント剪定、およびその後の共同最適化のためのキーフレームガイダンスを使用して、ツリーベースの階層マージ法を使用します。
このアプローチは、再構成プロセスを大幅に加速し、トレーニング時間を82%以上削減し、現在のSOTAメソッドよりも視覚的な品質を向上させます。
要約(オリジナル)
Efficiently reconstructing 3D scenes from monocular video remains a core challenge in computer vision, vital for applications in virtual reality, robotics, and scene understanding. Recently, frame-by-frame progressive reconstruction without camera poses is commonly adopted, incurring high computational overhead and compounding errors when scaling to longer videos. To overcome these issues, we introduce VideoLifter, a novel video-to-3D pipeline that leverages a local-to-global strategy on a fragment basis, achieving both extreme efficiency and SOTA quality. Locally, VideoLifter leverages learnable 3D priors to register fragments, extracting essential information for subsequent 3D Gaussian initialization with enforced inter-fragment consistency and optimized efficiency. Globally, it employs a tree-based hierarchical merging method with key frame guidance for inter-fragment alignment, pairwise merging with Gaussian point pruning, and subsequent joint optimization to ensure global consistency while efficiently mitigating cumulative errors. This approach significantly accelerates the reconstruction process, reducing training time by over 82% while holding better visual quality than current SOTA methods.
arxiv情報
著者 | Wenyan Cong,Hanqing Zhu,Kevin Wang,Jiahui Lei,Colton Stearns,Yuanhao Cai,Dilin Wang,Rakesh Ranjan,Matt Feiszli,Leonidas Guibas,Zhangyang Wang,Weiyao Wang,Zhiwen Fan |
発行日 | 2025-03-10 17:19:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google