Ultra-Range Gesture Recognition using a Web-Camera in Human-Robot Interaction

要約

手のジェスチャーは、非言語的な意図、考え、コマンドが伝達される人間の相互作用において重要な役割を果たします。
ヒューマン ロボット インタラクション (HRI) では、ハンド ジェスチャは、ロボット エージェントに明確かつ迅速な指示を伝えるための同様の効率的な媒体を提供します。
ただし、最先端の視覚ベースのジェスチャ認識方法は、ユーザーとカメラの距離が 7 メートルまでしか効果がないことが示されています。
このような短距離範囲では、サービス ロボット、捜索救助ロボット、ドローンなどの実用的な HRI が制限されます。
この研究では、HRI のコンテキストで、最大 25 メートルの認識距離を目指すことにより、Ultra-Range Gesture Recognition (URGR) 問題に取り組みます。
私たちは、シンプルな RGB カメラのみを使用した新しいディープラーニングである URGR フレームワークを提案します。
ジェスチャの推論は 1 つの画像に基づいています。
まず、High-Quality Network (HQ-Net) と呼ばれる新しい超解像度モデルは、セルフ アテンション層と畳み込み層のセットを使用して、ユーザーの低解像度画像を強化します。
次に、強化された画像を入力として受け取る Graph Vision Transformer (GViT) と呼ばれる新しい URGR 分類器を提案します。
GViT は、グラフ畳み込みネットワーク (GCN) と改良されたビジョン トランスフォーマー (ViT) の利点を組み合わせています。
提案されたフレームワークをさまざまなテストデータで評価したところ、98.1% という高い認識率が得られました。
このフレームワークは、超長距離における人間の認識と比較して優れたパフォーマンスも示しています。
このフレームワークを使用して、屋内および屋外の複雑な超長距離環境において人間のジェスチャーによって指示される自律型四足ロボットのパフォーマンスを分析および実証し、平均 96% の認識率を獲得しました。

要約(オリジナル)

Hand gestures play a significant role in human interactions where non-verbal intentions, thoughts and commands are conveyed. In Human-Robot Interaction (HRI), hand gestures offer a similar and efficient medium for conveying clear and rapid directives to a robotic agent. However, state-of-the-art vision-based methods for gesture recognition have been shown to be effective only up to a user-camera distance of seven meters. Such a short distance range limits practical HRI with, for example, service robots, search and rescue robots and drones. In this work, we address the Ultra-Range Gesture Recognition (URGR) problem by aiming for a recognition distance of up to 25 meters and in the context of HRI. We propose the URGR framework, a novel deep-learning, using solely a simple RGB camera. Gesture inference is based on a single image. First, a novel super-resolution model termed High-Quality Network (HQ-Net) uses a set of self-attention and convolutional layers to enhance the low-resolution image of the user. Then, we propose a novel URGR classifier termed Graph Vision Transformer (GViT) which takes the enhanced image as input. GViT combines the benefits of a Graph Convolutional Network (GCN) and a modified Vision Transformer (ViT). Evaluation of the proposed framework over diverse test data yields a high recognition rate of 98.1%. The framework has also exhibited superior performance compared to human recognition in ultra-range distances. With the framework, we analyze and demonstrate the performance of an autonomous quadruped robot directed by human gestures in complex ultra-range indoor and outdoor environments, acquiring 96% recognition rate on average.

arxiv情報

著者 Eran Bamani,Eden Nissinman,Inbar Meir,Lisa Koenigsberg,Avishai Sintov
発行日 2024-04-10 06:46:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク