Robust Dynamic Gesture Recognition at Ultra-Long Distances

要約

動的なハンド ジェスチャは、ヒューマン ロボット インタラクション (HRI) の非言語情報を伝達する上で重要な役割を果たし、複雑なインターフェイスの必要性を排除します。
動的ジェスチャ認識の現在のモデルは、有効認識範囲に制限があり、その適用が近接シナリオに制限されています。
このレターでは、最大 28 メートルの超長距離で動的なジェスチャを認識し、屋内と屋外の両方の環境でロボットを誘導するための自然で指示的なコミュニケーションを可能にする新しいアプローチを紹介します。
私たちが提案する SlowFast-Transformer (SFT) モデルは、SlowFast アーキテクチャと Transformer レイヤーを効果的に統合し、超長距離でキャプチャされたジェスチャ シーケンスを効率的に処理および分類し、低解像度と環境ノイズの課題を克服します。
さらに、さまざまな距離で学習を強化し、モデルの堅牢性を向上させることが示されている距離重み付き損失関数を導入します。
私たちのモデルは、最先端のジェスチャ認識フレームワークと比較して大幅なパフォーマンスの向上を示し、困難な超長距離ジェスチャを含む多様なデータセットで 95.1% の認識精度を達成しました。
これにより、ロボットは遠くから人間のコマンドに適切に反応できるようになり、特にシームレスで自然なインタラクションが必要なシナリオにおいて、HRI に不可欠な強化がもたらされます。

要約(オリジナル)

Dynamic hand gestures play a crucial role in conveying nonverbal information for Human-Robot Interaction (HRI), eliminating the need for complex interfaces. Current models for dynamic gesture recognition suffer from limitations in effective recognition range, restricting their application to close proximity scenarios. In this letter, we present a novel approach to recognizing dynamic gestures in an ultra-range distance of up to 28 meters, enabling natural, directive communication for guiding robots in both indoor and outdoor environments. Our proposed SlowFast-Transformer (SFT) model effectively integrates the SlowFast architecture with Transformer layers to efficiently process and classify gesture sequences captured at ultra-range distances, overcoming challenges of low resolution and environmental noise. We further introduce a distance-weighted loss function shown to enhance learning and improve model robustness at varying distances. Our model demonstrates significant performance improvement over state-of-the-art gesture recognition frameworks, achieving a recognition accuracy of 95.1% on a diverse dataset with challenging ultra-range gestures. This enables robots to react appropriately to human commands from a far distance, providing an essential enhancement in HRI, especially in scenarios requiring seamless and natural interaction.

arxiv情報

著者 Eran Bamani Beeri,Eden Nissinman,Avishai Sintov
発行日 2024-11-27 14:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク