要約
単眼動画から高密度の3Dモーションを追跡することは、特に長時間のシーケンスでピクセルレベルの精度を目指す場合、依然として困難である。我々は、3D空間の全てのピクセルを効率的に追跡し、動画全体にわたって正確な動き推定を可能にする新しい手法であるDELTAを紹介する。我々のアプローチは、縮小解像度の追跡のために、グローバルとローカルの共同注意メカニズムを活用し、その後、高解像度の予測を達成するために、変換器ベースのアップサンプラーを使用する。計算効率の悪さや疎なトラッキングによって制限される既存の手法とは異なり、DELTAはスケールで高密度な3Dトラッキングを実現し、最先端の精度を達成しながら、従来の手法よりも8倍以上高速に動作します。さらに、深度表現がトラッキング性能に与える影響を調査し、最適な選択としてlog-depthを特定しました。広範な実験により、複数のベンチマークにおいてDELTAの優位性が実証され、2Dと3Dの両方の高密度トラッキングタスクにおいて最先端の結果を達成した。本手法は、3D空間におけるきめ細かく長期的なモーショントラッキングを必要とするアプリケーションに対して、ロバストなソリューションを提供する。
要約(オリジナル)
Tracking dense 3D motion from monocular videos remains challenging, particularly when aiming for pixel-level precision over long sequences. We introduce DELTA, a novel method that efficiently tracks every pixel in 3D space, enabling accurate motion estimation across entire videos. Our approach leverages a joint global-local attention mechanism for reduced-resolution tracking, followed by a transformer-based upsampler to achieve high-resolution predictions. Unlike existing methods, which are limited by computational inefficiency or sparse tracking, DELTA delivers dense 3D tracking at scale, running over 8x faster than previous methods while achieving state-of-the-art accuracy. Furthermore, we explore the impact of depth representation on tracking performance and identify log-depth as the optimal choice. Extensive experiments demonstrate the superiority of DELTA on multiple benchmarks, achieving new state-of-the-art results in both 2D and 3D dense tracking tasks. Our method provides a robust solution for applications requiring fine-grained, long-term motion tracking in 3D space.
arxiv情報
著者 | Tuan Duc Ngo,Peiye Zhuang,Chuang Gan,Evangelos Kalogerakis,Sergey Tulyakov,Hsin-Ying Lee,Chaoyang Wang |
発行日 | 2024-11-01 17:23:01+00:00 |
arxivサイト | arxiv_id(pdf) |