要約
単眼ビデオから高密度の 3D モーションを追跡することは、特に長いシーケンスにわたってピクセルレベルの精度を目指す場合には依然として困難です。
\Approach を紹介します。これは、3D 空間のすべてのピクセルを効率的に追跡し、ビデオ全体で正確な動き推定を可能にする新しい方法です。
私たちのアプローチでは、グローバルとローカルの共同アテンション メカニズムを利用して低解像度の追跡を行い、その後トランスベースのアップサンプラーを利用して高解像度の予測を実現します。
計算効率の悪さやトラッキングの疎さによって制限される既存の手法とは異なり、\Approach は大規模な高密度 3D トラッキングを実現し、従来の手法より 8 倍以上高速に実行しながら、最先端の精度を実現します。
さらに、追跡パフォーマンスに対する深度表現の影響を調査し、ログ深度が最適な選択肢であることを特定します。
広範な実験により、複数のベンチマークにおける \Approach の優位性が実証され、2D と 3D の両方の高密度追跡タスクで最先端の新しい結果が得られました。
私たちの方法は、3D 空間でのきめの細かい長期的なモーション追跡を必要とするアプリケーションに堅牢なソリューションを提供します。
要約(オリジナル)
Tracking dense 3D motion from monocular videos remains challenging, particularly when aiming for pixel-level precision over long sequences. We introduce \Approach, a novel method that efficiently tracks every pixel in 3D space, enabling accurate motion estimation across entire videos. Our approach leverages a joint global-local attention mechanism for reduced-resolution tracking, followed by a transformer-based upsampler to achieve high-resolution predictions. Unlike existing methods, which are limited by computational inefficiency or sparse tracking, \Approach delivers dense 3D tracking at scale, running over 8x faster than previous methods while achieving state-of-the-art accuracy. Furthermore, we explore the impact of depth representation on tracking performance and identify log-depth as the optimal choice. Extensive experiments demonstrate the superiority of \Approach on multiple benchmarks, achieving new state-of-the-art results in both 2D and 3D dense tracking tasks. Our method provides a robust solution for applications requiring fine-grained, long-term motion tracking in 3D space.
arxiv情報
著者 | Tuan Duc Ngo,Peiye Zhuang,Chuang Gan,Evangelos Kalogerakis,Sergey Tulyakov,Hsin-Ying Lee,Chaoyang Wang |
発行日 | 2024-10-31 17:59:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google