InterTracker: Discovering and Tracking General Objects Interacting with Hands in the Wild

要約

人間とオブジェクトのインタラクションを理解することは、身体化された人工知能にとって重要な研究テーマであり、人間がインタラクションしているオブジェクトを特定することは、インタラクションを理解するための主要な問題です。
既存の方法は、相互作用するオブジェクトを見つけるためにフレームベースの検出器に依存しています。
ただし、このアプローチは、重度のオクルージョン、背景の乱雑さ、および邪魔なオブジェクトの影響を受けます。
この制限に対処するために、この論文では、手とオブジェクトのインタラクションの時空間情報を活用して、これらの困難なケースの下でインタラクティブなオブジェクトを追跡することを提案します。
オブジェクト追跡問題のような追跡対象の一般的なオブジェクトに関する事前知識なしで、まず手とオブジェクトの間の空間関係を利用して、シーンから相互作用するオブジェクトを適応的に発見します。
第 2 に、連続するフレーム間のオブジェクトの外観の一貫性と連続性を利用して、オブジェクトを追跡します。
この追跡定式化により、私たちの方法は大規模な一般的なオブジェクト追跡データセットでのトレーニングからも恩恵を受けます。
さらに、100DOH からのテストと評価のために、ビデオレベルの手とオブジェクトのインタラクション データセットを厳選します。
定量的な結果は、私たちが提案した方法が最先端の方法よりも優れていることを示しています。
具体的には、さまざまなオブジェクトとの継続的なインタラクションがあるシーンでは、平均精度 (AP) メトリクスを使用して評価すると、約 10% の大幅な向上が達成されています。
私たちの定性的発見は、私たちの方法が相互作用するオブジェクトに対してより連続的な軌道を生成できることも示しています。

要約(オリジナル)

Understanding human interaction with objects is an important research topic for embodied Artificial Intelligence and identifying the objects that humans are interacting with is a primary problem for interaction understanding. Existing methods rely on frame-based detectors to locate interacting objects. However, this approach is subjected to heavy occlusions, background clutter, and distracting objects. To address the limitations, in this paper, we propose to leverage spatio-temporal information of hand-object interaction to track interactive objects under these challenging cases. Without prior knowledge of the general objects to be tracked like object tracking problems, we first utilize the spatial relation between hands and objects to adaptively discover the interacting objects from the scene. Second, the consistency and continuity of the appearance of objects between successive frames are exploited to track the objects. With this tracking formulation, our method also benefits from training on large-scale general object-tracking datasets. We further curate a video-level hand-object interaction dataset for testing and evaluation from 100DOH. The quantitative results demonstrate that our proposed method outperforms the state-of-the-art methods. Specifically, in scenes with continuous interaction with different objects, we achieve an impressive improvement of about 10% as evaluated using the Average Precision (AP) metric. Our qualitative findings also illustrate that our method can produce more continuous trajectories for interacting objects.

arxiv情報

著者 Yanyan Shao,Qi Ye,Wenhan Luo,Kaihao Zhang,Jiming Chen
発行日 2023-08-14 12:44:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク