EgoTracks: A Long-term Egocentric Visual Object Tracking Dataset

要約

視覚的物体追跡は、多くの自己中心的な視覚問題にとって重要な要素です。しかし、既存のデータセットでは、3人称視点の比較的短いビデオに焦点を当てたものが多く、AIが直面する自己中心的なトラッキングの課題の全容は十分に表現されていません。カメラの大きな動きや手とオブジェクトのインタラクションが頻繁に起こることで、オブジェクトがフレームから外れてしまったり、視点やスケール、オブジェクトの状態が大きく異なることで、オブジェクトの外観が急激に変化してしまうことがよくあります。また、エンボディトラッキングは長期に渡るため、生涯に渡って一貫してオブジェクトの出現と消滅を関連付けることができることが重要です。これまでのデータセットでは、この再識別の問題が強調されておらず、また、その「フレーム化」された性質から、様々な時空間プリオーが採用されてきましたが、これらは必ずしも自心ビデオに一般化されないことが分かっています。そこで、我々は長期的な自己中心的視覚物体追跡のための新しいデータセット、EgoTracksを紹介します。この新しいデータセットはEgo4Dデータセットから提供されており、最近の最新の単一オブジェクトトラッキングモデルに対する大きな挑戦となっています。さらに、STARKトラッカーに改良を加えることで、自心データに対する性能が大幅に向上することを示し、その結果、EgoSTARKと呼ぶベースラインモデルを作成することができました。私たちのデータセットがトラッキングのさらなる進歩につながることを願い、私たちのアノテーションとベンチマークを一般に公開します。

要約(オリジナル)

Visual object tracking is a key component to many egocentric vision problems. However, the full spectrum of challenges of egocentric tracking faced by an embodied AI is underrepresented in many existing datasets; these tend to focus on relatively short, third-person videos. Egocentric video has several distinguishing characteristics from those commonly found in past datasets: frequent large camera motions and hand interactions with objects commonly lead to occlusions or objects exiting the frame, and object appearance can change rapidly due to widely different points of view, scale, or object states. Embodied tracking is also naturally long-term, and being able to consistently (re-)associate objects to their appearances and disappearances over as long as a lifetime is critical. Previous datasets under-emphasize this re-detection problem, and their ‘framed’ nature has led to adoption of various spatiotemporal priors that we find do not necessarily generalize to egocentric video. We thus introduce EgoTracks, a new dataset for long-term egocentric visual object tracking. Sourced from the Ego4D dataset, this new dataset presents a significant challenge to recent state-of-the-art single-object tracking models, which we find score poorly on traditional tracking metrics for our new dataset, compared to popular benchmarks. We further show improvements that can be made to a STARK tracker to significantly increase its performance on egocentric data, resulting in a baseline model we call EgoSTARK. We publicly release our annotations and benchmark, hoping our dataset leads to further advancements in tracking.

arxiv情報

著者 Hao Tang,Kevin Liang,Kristen Grauman,Matt Feiszli,Weiyao Wang
発行日 2023-01-09 09:10:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク