要約
特に長いシーケンスにわたるピクセルレベルの精度を目指している場合、単眼ビデオからの密な3Dモーションの追跡は依然として挑戦的です。
3Dスペースのすべてのピクセルを効率的に追跡する新しい方法であるDeltaを紹介し、ビデオ全体で正確なモーション推定を可能にします。
当社のアプローチは、低解像度追跡のための共同グローバルローカル注意メカニズムを活用し、その後、高解像度の予測を実現するために変圧器ベースのアップサンプラーが続きます。
計算の非効率性またはスパーストラッキングによって制限される既存の方法とは異なり、Deltaは大規模に密な3D追跡を提供し、最先端の精度を達成しながら以前の方法よりも8倍速く実行されます。
さらに、トラッキングパフォーマンスに対する深さ表現の影響を調査し、最適な選択としてログの詳細を特定します。
広範な実験は、複数のベンチマークでのデルタの優位性を示しており、2Dと3Dの両方の密度の高い追跡タスクで新しい最先端の結果を達成しています。
私たちの方法は、3D空間での細粒の長期モーショントラッキングを必要とするアプリケーションに堅牢なソリューションを提供します。
要約(オリジナル)
Tracking dense 3D motion from monocular videos remains challenging, particularly when aiming for pixel-level precision over long sequences. We introduce DELTA, a novel method that efficiently tracks every pixel in 3D space, enabling accurate motion estimation across entire videos. Our approach leverages a joint global-local attention mechanism for reduced-resolution tracking, followed by a transformer-based upsampler to achieve high-resolution predictions. Unlike existing methods, which are limited by computational inefficiency or sparse tracking, DELTA delivers dense 3D tracking at scale, running over 8x faster than previous methods while achieving state-of-the-art accuracy. Furthermore, we explore the impact of depth representation on tracking performance and identify log-depth as the optimal choice. Extensive experiments demonstrate the superiority of DELTA on multiple benchmarks, achieving new state-of-the-art results in both 2D and 3D dense tracking tasks. Our method provides a robust solution for applications requiring fine-grained, long-term motion tracking in 3D space.
arxiv情報
| 著者 | Tuan Duc Ngo,Peiye Zhuang,Chuang Gan,Evangelos Kalogerakis,Sergey Tulyakov,Hsin-Ying Lee,Chaoyang Wang |
| 発行日 | 2025-02-28 18:54:16+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google