要約
このペーパーでは、カジュアルなビデオの動的なシーンを理解するための統一されたアプローチを紹介します。
ビジョン言語、ビデオ深度予測、モーショントラッキング、セグメンテーションモデルなどの大規模な前提型ビジョンファンデーションモデルは、有望な機能を提供します。
ただし、包括的な4D理解のための単一のモデルのトレーニングは依然として困難です。
静的/動的再構成、カメラのポーズ推定、密な3Dモーショントラッキングなど、複数の前提条件のモデルを活用して動的な3Dモデリングを進める多段階の最適化フレームワークであるUNI4Dを導入します。
私たちの結果は、優れた視覚品質を備えた動的4Dモデリングの最先端のパフォーマンスを示しています。
特に、UNI4Dは再訓練や微調整を必要とせず、4D理解のために視覚基盤モデルを再利用することの有効性を強調しています。
要約(オリジナル)
This paper presents a unified approach to understanding dynamic scenes from casual videos. Large pretrained vision foundation models, such as vision-language, video depth prediction, motion tracking, and segmentation models, offer promising capabilities. However, training a single model for comprehensive 4D understanding remains challenging. We introduce Uni4D, a multi-stage optimization framework that harnesses multiple pretrained models to advance dynamic 3D modeling, including static/dynamic reconstruction, camera pose estimation, and dense 3D motion tracking. Our results show state-of-the-art performance in dynamic 4D modeling with superior visual quality. Notably, Uni4D requires no retraining or fine-tuning, highlighting the effectiveness of repurposing visual foundation models for 4D understanding.
arxiv情報
著者 | David Yifan Yao,Albert J. Zhai,Shenlong Wang |
発行日 | 2025-03-27 17:57:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google