Egocentric Hand-object Interaction Detection

要約

この論文では、手と物体の相互作用の状態を共同で決定する方法を提案します。
これは、自己中心的な人間活動の理解と相互作用にとって重要です。
コンピューター ビジョンの観点から、手がオブジェクトと相互作用しているかどうかの判断は、インタラクティブな手のポーズがあるかどうか、および手がオブジェクトに触れているかどうかに依存すると考えています。
したがって、ハンドポーズ、ハンドオブジェクトマスクを抽出して、相互作用ステータスを共同で決定します。
手の中にあるオブジェクトのオクルージョンによる手のポーズ推定の問題を解決するために、マルチカム システムを使用して、複数の視点から手のポーズ データをキャプチャします。
私たちの方法を評価し、シャンらの最新の研究と比較します。
EPIC-KITCHENS \cite{damen2018scaling} データセットから選択した画像に対して \cite{Shan20} を使用し、Shan の ($92\%$) に匹敵する HOI (手と物体の相互作用) 検出で $89\%$ の精度を達成しました。
ただし、リアルタイムのパフォーマンスについては、この方法は $\textbf{30}$ FPS で実行できます。これは Shan の方法 ($\textbf{1}\sim\textbf{2}$ FPS) よりもはるかに効率的です。
デモは https://www.youtube.com/watch?v=XVj3zBuynmQ から見つけることができます

要約(オリジナル)

In this paper, we propose a method to jointly determine the status of hand-object interaction. This is crucial for egocentric human activity understanding and interaction. From a computer vision perspective, we believe that determining whether a hand is interacting with an object depends on whether there is an interactive hand pose and whether the hand is touching the object. Thus, we extract the hand pose, hand-object masks to jointly determine the interaction status. In order to solve the problem of hand pose estimation due to in-hand object occlusion, we use a multi-cam system to capture hand pose data from multiple perspectives. We evaluate and compare our method with the most recent work from Shan et al. \cite{Shan20} on selected images from EPIC-KITCHENS \cite{damen2018scaling} dataset and achieve $89\%$ accuracy on HOI (hand-object interaction) detection which is comparative to Shan’s ($92\%$). However, for real-time performance, our method can run over $\textbf{30}$ FPS which is much more efficient than Shan’s ($\textbf{1}\sim\textbf{2}$ FPS). A demo can be found from https://www.youtube.com/watch?v=XVj3zBuynmQ

arxiv情報

著者 Yao Lu,Yanan Liu
発行日 2022-11-16 17:31:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク