EgoTracks: A Long-term Egocentric Visual Object Tracking Dataset

要約

視覚オブジェクトの追跡は、多くの自己中心的な視覚問題の重要な要素です。
しかし、身体化された AI が直面する自己中心的な追跡のあらゆる課題は、多くの既存のデータセットでは過小評価されています。
これらは、比較的短い三人称のビデオに焦点を当てる傾向があります。
自己中心的なビデオには、過去のデータセットで一般的に見られるものとはいくつかの際立った特徴があります。つまり、頻繁に大きなカメラの動きやオブジェクトとの手のやり取りにより、通常、オクルージョンやオブジェクトがフレームから外れる原因となり、オブジェクトの外観は、大きく異なる視点、スケール、またはオブジェクトによって急速に変化する可能性があります。
オブジェクトの状態。
身体的追跡も当然長期にわたるものであり、生涯にわたってオブジェクトをその出現と消失に一貫して(再)関連付けることができることが重要です。
以前のデータセットはこの再検出の問題を十分に強調していませんでしたが、その「フレーム化された」性質により、必ずしも自己中心的なビデオに一般化されないことが判明したさまざまな時空間事前分布の採用につながりました。
そこで、長期的な自己中心的な視覚オブジェクト追跡のための新しいデータセットである EgoTracks を紹介します。
Ego4D データセットをソースとするこの新しいデータセットは、最近の最先端の単一オブジェクト追跡モデルに対して重大な課題を提示しています。このモデルは、一般的なベンチマークと比較して、新しいデータセットの従来の追跡メトリックではスコアが低いことがわかりました。
さらに、自己中心的なデータに対するパフォーマンスを大幅に向上させるために STARK トラッカーに加えることができる改善を示し、その結果、EgoSTARK と呼ばれるベースライン モデルが作成されます。
私たちは、データセットが追跡のさらなる進歩につながることを願って、アノテーションとベンチマークを一般に公開します。

要約(オリジナル)

Visual object tracking is a key component to many egocentric vision problems. However, the full spectrum of challenges of egocentric tracking faced by an embodied AI is underrepresented in many existing datasets; these tend to focus on relatively short, third-person videos. Egocentric video has several distinguishing characteristics from those commonly found in past datasets: frequent large camera motions and hand interactions with objects commonly lead to occlusions or objects exiting the frame, and object appearance can change rapidly due to widely different points of view, scale, or object states. Embodied tracking is also naturally long-term, and being able to consistently (re-)associate objects to their appearances and disappearances over as long as a lifetime is critical. Previous datasets under-emphasize this re-detection problem, and their ‘framed’ nature has led to adoption of various spatiotemporal priors that we find do not necessarily generalize to egocentric video. We thus introduce EgoTracks, a new dataset for long-term egocentric visual object tracking. Sourced from the Ego4D dataset, this new dataset presents a significant challenge to recent state-of-the-art single-object tracking models, which we find score poorly on traditional tracking metrics for our new dataset, compared to popular benchmarks. We further show improvements that can be made to a STARK tracker to significantly increase its performance on egocentric data, resulting in a baseline model we call EgoSTARK. We publicly release our annotations and benchmark, hoping our dataset leads to further advancements in tracking.

arxiv情報

著者 Hao Tang,Kevin Liang,Matt Feiszli,Weiyao Wang
発行日 2023-10-01 22:54:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク