Recognition and Estimation of Human Finger Pointing with an RGB Camera for Robot Directive

要約

人間間のコミュニケーションでは、ジェスチャーは空間参照に優れているため、言語表現よりもジェスチャーが好まれたり補完されたりすることがよくあります。
指を指すジェスチャは、環境内の関心のある点に関する重要な情報を伝えます。
人間とロボットの対話では、ユーザーは、たとえば捜索救助や工場支援などで、ロボットを目的の場所に簡単に誘導できます。
視覚的なポインティング推定のための最先端のアプローチは、多くの場合、深度カメラに依存しており、屋内環境に限定されており、限られたターゲット間の離散的な予測を提供します。
この論文では、単一の RGB カメラのみに基づいて、屋内および屋外のさまざまな環境でロボットがポインティング指示を理解するためのモデルの学習を検討します。
PointingNet と呼ばれる指定されたモデルを含む新しいフレームワークが提案されています。
PointingNet は、ポインティングの発生を認識し、続いて人差し指の位置と方向を近似します。
このモデルは、持ち上げられた腕をマスクするための新しいセグメンテーション モデルに依存しています。
最先端の人間姿勢推定モデルのポインティング角度推定精度は 28 度という低い精度ですが、PointingNet の平均精度は 2 度未満です。
ポインティング情報を使用してターゲットが計算され、その後ロボットの計画と動作が行われます。
このフレームワークは 2 つのロボット システムで評価され、正確な目標到達を実現します。

要約(オリジナル)

In communication between humans, gestures are often preferred or complementary to verbal expression since the former offers better spatial referral. Finger pointing gesture conveys vital information regarding some point of interest in the environment. In human-robot interaction, a user can easily direct a robot to a target location, for example, in search and rescue or factory assistance. State-of-the-art approaches for visual pointing estimation often rely on depth cameras, are limited to indoor environments and provide discrete predictions between limited targets. In this paper, we explore the learning of models for robots to understand pointing directives in various indoor and outdoor environments solely based on a single RGB camera. A novel framework is proposed which includes a designated model termed PointingNet. PointingNet recognizes the occurrence of pointing followed by approximating the position and direction of the index finger. The model relies on a novel segmentation model for masking any lifted arm. While state-of-the-art human pose estimation models provide poor pointing angle estimation accuracy of 28deg, PointingNet exhibits mean accuracy of less than 2deg. With the pointing information, the target is computed followed by planning and motion of the robot. The framework is evaluated on two robotic systems yielding accurate target reaching.

arxiv情報

著者 Eran Bamani,Eden Nissinman,Lisa Koenigsberg,Inbar Meir,Yoav Matalon,Avishai Sintov
発行日 2023-07-06 12:36:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク