Track Everything Everywhere Fast and Robustly

要約

私たちは、ビデオ内でいつでも効率的かつ確実にピクセルを追跡するための新しいテスト時間最適化アプローチを提案します。
最新の最適化ベースの追跡技術である OmniMotion は、法外に長い最適化時間を必要とするため、下流のアプリケーションでは実用的ではありません。
OmniMotion はランダム シードの選択に敏感であり、不安定な収束につながります。
効率とロバスト性を向上させるために、新しい可逆変形ネットワーク CaDeX++ を導入します。これは、関数表現を局所的な時空間特徴グリッドに因数分解し、非線形関数との結合ブロックの表現力を強化します。
CaDeX++ は、そのアーキテクチャ設計内に強力な幾何学的バイアスを組み込んでいますが、ビジョン基盤モデルによって提供される誘導バイアスも利用しています。
私たちのシステムは、単眼の奥行き推定を利用してシーンのジオメトリを表現し、DINOv2 の長期セマンティクスを組み込んで最適化プロセスを調整することで目的を強化します。
私たちの実験では、SoTA 最適化ベースのメソッドである OmniMotion と比較して、トレーニング速度 (\textbf{10 倍} 以上)、堅牢性、追跡精度が大幅に向上していることが実証されました。

要約(オリジナル)

We propose a novel test-time optimization approach for efficiently and robustly tracking any pixel at any time in a video. The latest state-of-the-art optimization-based tracking technique, OmniMotion, requires a prohibitively long optimization time, rendering it impractical for downstream applications. OmniMotion is sensitive to the choice of random seeds, leading to unstable convergence. To improve efficiency and robustness, we introduce a novel invertible deformation network, CaDeX++, which factorizes the function representation into a local spatial-temporal feature grid and enhances the expressivity of the coupling blocks with non-linear functions. While CaDeX++ incorporates a stronger geometric bias within its architectural design, it also takes advantage of the inductive bias provided by the vision foundation models. Our system utilizes monocular depth estimation to represent scene geometry and enhances the objective by incorporating DINOv2 long-term semantics to regulate the optimization process. Our experiments demonstrate a substantial improvement in training speed (more than \textbf{10 times} faster), robustness, and accuracy in tracking over the SoTA optimization-based method OmniMotion.

arxiv情報

著者 Yunzhou Song,Jiahui Lei,Ziyun Wang,Lingjie Liu,Kostas Daniilidis
発行日 2024-03-26 17:58:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク