TAPVid-3D: A Benchmark for Tracking Any Point in 3D

要約

3D の長距離追跡任意点 (TAP-3D) のタスクを評価するための新しいベンチマーク TAPVid-3D を導入します。
2 次元のポイント トラッキング (TAP) には、TAPVid-DAVIS など、実世界のビデオのパフォーマンスを測定するベンチマークが多数ありますが、3 次元のポイント トラッキングには何もありません。
この目的を達成するために、既存の映像を活用して、さまざまなオブジェクト タイプ、動作パターン、屋内および屋外の環境にわたる 3 つの異なるデータ ソースで構成される 4,000 以上の実世界のビデオを特徴とする 3D ポイント トラッキングの新しいベンチマークを構築します。
TAP-3D タスクのパフォーマンスを測定するために、TAP で使用される Jaccard ベースのメトリクスを拡張するメトリクスのコレクションを定式化して、モデル全体に​​わたるあいまいな深度スケール、オクルージョン、およびマルチトラックの時空間滑らかさの複雑さを処理します。
私たちは、大規模な軌道サンプルを手動で検証してビデオ注釈が正しいことを確認し、既存の追跡モデルを使用して競争力のあるベースラインを構築することで TAP-3D タスクの現在の状態を評価します。
このベンチマークが、単眼ビデオから正確な 3D 運動と表面変形を理解する能力を向上させるための道しるべとして機能することが期待されます。
データセットのダウンロード、生成、モデル評価のコードは https://tapvid3d.github.io で入手できます。

要約(オリジナル)

We introduce a new benchmark, TAPVid-3D, for evaluating the task of long-range Tracking Any Point in 3D (TAP-3D). While point tracking in two dimensions (TAP) has many benchmarks measuring performance on real-world videos, such as TAPVid-DAVIS, three-dimensional point tracking has none. To this end, leveraging existing footage, we build a new benchmark for 3D point tracking featuring 4,000+ real-world videos, composed of three different data sources spanning a variety of object types, motion patterns, and indoor and outdoor environments. To measure performance on the TAP-3D task, we formulate a collection of metrics that extend the Jaccard-based metric used in TAP to handle the complexities of ambiguous depth scales across models, occlusions, and multi-track spatio-temporal smoothness. We manually verify a large sample of trajectories to ensure correct video annotations, and assess the current state of the TAP-3D task by constructing competitive baselines using existing tracking models. We anticipate this benchmark will serve as a guidepost to improve our ability to understand precise 3D motion and surface deformation from monocular video. Code for dataset download, generation, and model evaluation is available at https://tapvid3d.github.io

arxiv情報

著者 Skanda Koppula,Ignacio Rocco,Yi Yang,Joe Heyward,João Carreira,Andrew Zisserman,Gabriel Brostow,Carl Doersch
発行日 2024-07-08 13:28:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク