要約
人間と物体の相互作用を理解することは、ファースト パーソン ビジョン (FPV) の基本です。
カメラの装着者が操作するオブジェクトを追跡する視覚追跡アルゴリズムは、このような相互作用を効果的にモデル化するための有用な情報を提供できます。
ここ数年、コンピューター ビジョン コミュニティは、多種多様な対象物やシナリオの追跡アルゴリズムのパフォーマンスを大幅に向上させてきました。
FPV ドメインでトラッカーを悪用する以前のいくつかの試みにもかかわらず、最先端のトラッカーのパフォーマンスの体系的な分析はまだ行方不明です。
この研究のギャップは、現在の解決策を「既製品」で使用できるのか、それともよりドメイン固有の調査を実施する必要があるのかという問題を提起します。
この論文は、そのような疑問に対する答えを提供することを目的としています。
FPV での単一オブジェクト追跡の最初の体系的な調査を提示します。
私たちの調査では、一般的なオブジェクト トラッカーとベースラインの FPV 固有のトラッカーを含む 42 のアルゴリズムのパフォーマンスを広範囲に分析しています。
分析は、FPV 設定のさまざまな側面に焦点を当て、新しいパフォーマンス指標を導入し、FPV 固有のタスクに関連して実行されます。
この研究は、150 の高密度に注釈が付けられたビデオ シーケンスで構成される新しいベンチマーク データセットである TREK-150 の導入によって可能になりました。
私たちの結果は、FPV でのオブジェクト トラッキングが現在のビジュアル トラッカーに新たな課題をもたらすことを示しています。
このような行動を引き起こす要因を強調し、可能な研究の方向性を指摘します。
それらの困難にもかかわらず、トラッカーが短期間のオブジェクト追跡を必要とする FPV ダウンストリーム タスクに利益をもたらすことを証明します。
新しいFPV固有の方法論が調査されるにつれて、一般的なオブジェクト追跡がFPVで人気を博すと予想されます。
要約(オリジナル)
The understanding of human-object interactions is fundamental in First Person Vision (FPV). Visual tracking algorithms which follow the objects manipulated by the camera wearer can provide useful information to effectively model such interactions. In the last years, the computer vision community has significantly improved the performance of tracking algorithms for a large variety of target objects and scenarios. Despite a few previous attempts to exploit trackers in the FPV domain, a methodical analysis of the performance of state-of-the-art trackers is still missing. This research gap raises the question of whether current solutions can be used “off-the-shelf” or more domain-specific investigations should be carried out. This paper aims to provide answers to such questions. We present the first systematic investigation of single object tracking in FPV. Our study extensively analyses the performance of 42 algorithms including generic object trackers and baseline FPV-specific trackers. The analysis is carried out by focusing on different aspects of the FPV setting, introducing new performance measures, and in relation to FPV-specific tasks. The study is made possible through the introduction of TREK-150, a novel benchmark dataset composed of 150 densely annotated video sequences. Our results show that object tracking in FPV poses new challenges to current visual trackers. We highlight the factors causing such behavior and point out possible research directions. Despite their difficulties, we prove that trackers bring benefits to FPV downstream tasks requiring short-term object tracking. We expect that generic object tracking will gain popularity in FPV as new and FPV-specific methodologies are investigated.
arxiv情報
著者 | Matteo Dunnhofer,Antonino Furnari,Giovanni Maria Farinella,Christian Micheloni |
発行日 | 2022-09-27 16:18:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google