4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos

要約

ダイナミックシーンの再構築のための4Dガウスベースのトランスモデルである4DGTを提案し、実際のモノクラーポーズで完全に訓練されています。
4Dガウスを誘導バイアスとして使用すると、4DGTは静的コンポーネントと動的コンポーネントを統合し、異なるオブジェクト寿命を備えた複雑で時変環境のモデリングを可能にします。
トレーニングにおける新しい密度制御戦略を提案しました。これにより、4DGTはより長い時空の入力を処理し、実行時に効率的なレンダリングを維持できます。
私たちのモデルは、64連続したポーズフレームをローリングウィンドウの方法で処理し、シーン内の一貫した4Dガウス人を予測します。
最適化ベースの方法とは異なり、4DGTは純粋にフィードフォワード推論を実行し、再建時間を数時間から秒まで短縮し、効果的に長いビデオシーケンスにスケーリングします。
大規模なモノクラーポーズビデオデータセットでのみトレーニングされている4DGTは、以前のガウスベースのネットワークを実際のビデオで大幅に上回り、クロスドメインビデオの最適化ベースの方法で標準の精度を達成できます。
プロジェクトページ:https://4dgt.github.io

要約(オリジナル)

We propose 4DGT, a 4D Gaussian-based Transformer model for dynamic scene reconstruction, trained entirely on real-world monocular posed videos. Using 4D Gaussian as an inductive bias, 4DGT unifies static and dynamic components, enabling the modeling of complex, time-varying environments with varying object lifespans. We proposed a novel density control strategy in training, which enables our 4DGT to handle longer space-time input and remain efficient rendering at runtime. Our model processes 64 consecutive posed frames in a rolling-window fashion, predicting consistent 4D Gaussians in the scene. Unlike optimization-based methods, 4DGT performs purely feed-forward inference, reducing reconstruction time from hours to seconds and scaling effectively to long video sequences. Trained only on large-scale monocular posed video datasets, 4DGT can outperform prior Gaussian-based networks significantly in real-world videos and achieve on-par accuracy with optimization-based methods on cross-domain videos. Project page: https://4dgt.github.io

arxiv情報

著者 Zhen Xu,Zhengqin Li,Zhao Dong,Xiaowei Zhou,Richard Newcombe,Zhaoyang Lv
発行日 2025-06-09 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク