TAP-Vid: A Benchmark for Tracking Any Point in a Video

要約

映像からの一般的な動作理解には、物体の追跡だけでなく、その表面がどのように変形し、動くかを認識することが必要です。この情報は、3D形状、物理特性、オブジェクトの相互作用に関する推論を行うのに有効です。長いビデオクリップの表面上の任意の物理点を追跡する問題は注目されてきましたが、評価のためのデータセットやベンチマークは今まで存在していませんでした。本論文では、まずこの問題を定式化し、tracking any point (TAP)と名付けました。また、TAP-Vidと呼ばれるベンチマークを導入する。このベンチマークは、人間が正確に点の軌跡をアノテーションした実世界の動画と、完全なグランドトゥルースの点の軌跡を持つ合成動画の両方で構成されている。このベンチマークは、オプティカルフローの推定値を用いて、手振れのような簡単で短期的な動きを補正し、アノテーターがビデオの難しい部分に集中できるようにする新しい半自動クラウドソースパイプラインを構築するための中心的存在である。我々は、合成データ上でパイプラインを検証し、シンプルなエンドツーエンドポイント追跡モデルTAP-Netを提案し、合成データで訓練した場合、我々のベンチマークで先行する全ての手法を上回る性能を示す。

要約(オリジナル)

Generic motion understanding from video involves not only tracking objects, but also perceiving how their surfaces deform and move. This information is useful to make inferences about 3D shape, physical properties and object interactions. While the problem of tracking arbitrary physical points on surfaces over longer video clips has received some attention, no dataset or benchmark for evaluation existed, until now. In this paper, we first formalize the problem, naming it tracking any point (TAP). We introduce a companion benchmark, TAP-Vid, which is composed of both real-world videos with accurate human annotations of point tracks, and synthetic videos with perfect ground-truth point tracks. Central to the construction of our benchmark is a novel semi-automatic crowdsourced pipeline which uses optical flow estimates to compensate for easier, short-term motion like camera shake, allowing annotators to focus on harder sections of video. We validate our pipeline on synthetic data and propose a simple end-to-end point tracking model TAP-Net, showing that it outperforms all prior methods on our benchmark when trained on synthetic data.

arxiv情報

著者 Carl Doersch,Ankush Gupta,Larisa Markeeva,Adrià Recasens,Lucas Smaira,Yusuf Aytar,João Carreira,Andrew Zisserman,Yi Yang
発行日 2022-11-07 17:57:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, stat.ML パーマリンク