DiG-Net: Enhancing Quality of Life through Hyper-Range Dynamic Gesture Recognition in Assistive Robotics

要約

ダイナミックハンドジェスチャーは、特にモビリティの制約を備えた個人や操作ロボットをリモートで促進する、直感的で非言語的コミュニケーションを促進する、人間とロボットの支援相互作用(HRI)に極めて重要な役割を果たします。
現在のジェスチャー認識方法は、主に短距離相互作用に限定されており、遠くからの堅牢な支援コミュニケーションを必要とするシナリオでの有用性を減らします。
この論文では、支援ロボット工学専用に設計された新しいアプローチを紹介し、最大30メートルの延長距離で動的なジェスチャー認識を可能にし、それによりアクセシビリティと生活の質を大幅に向上させます。
提案されている距離認識ジェスチャーネットワーク(DIG-NET)は、深さの条件付き変形可能なアライメント(DADA)ブロックを時空間グラフモジュールと効果的に組み合わせて、重要な身体的減衰、解像度の減少、実質的な環境で一般的に体験する動的なジェスチャーの品質を含む、困難な条件下で捕らえられたジェスチャーシーケンスの堅牢な処理と分類を可能にします。
さらに、学習を強化し、さまざまな距離にわたってモデルの堅牢性を強化することが示されている、放射測定の時空深度減衰損失(RSTDAL)を導入します。
私たちのモデルは、最先端のジェスチャー認識フレームワークよりも大幅なパフォーマンス改善を示し、挑戦的なハイパーレンジのジェスチャーを備えた多様なデータセットで97.3%の認識精度を達成します。
かなりの距離からジェスチャーを効果的に解釈することにより、DIG-NETは、在宅医療、産業安全、リモート支援シナリオにおける支援ロボットの使いやすさを大幅に向上させ、身体的制限に関係なくユーザー向けのシームレスで直感的なやり取りを可能にします

要約(オリジナル)

Dynamic hand gestures play a pivotal role in assistive human-robot interaction (HRI), facilitating intuitive, non-verbal communication, particularly for individuals with mobility constraints or those operating robots remotely. Current gesture recognition methods are mostly limited to short-range interactions, reducing their utility in scenarios demanding robust assistive communication from afar. In this paper, we introduce a novel approach designed specifically for assistive robotics, enabling dynamic gesture recognition at extended distances of up to 30 meters, thereby significantly improving accessibility and quality of life. Our proposed Distance-aware Gesture Network (DiG-Net) effectively combines Depth-Conditioned Deformable Alignment (DADA) blocks with Spatio-Temporal Graph modules, enabling robust processing and classification of gesture sequences captured under challenging conditions, including significant physical attenuation, reduced resolution, and dynamic gesture variations commonly experienced in real-world assistive environments. We further introduce the Radiometric Spatio-Temporal Depth Attenuation Loss (RSTDAL), shown to enhance learning and strengthen model robustness across varying distances. Our model demonstrates significant performance improvement over state-of-the-art gesture recognition frameworks, achieving a recognition accuracy of 97.3% on a diverse dataset with challenging hyper-range gestures. By effectively interpreting gestures from considerable distances, DiG-Net significantly enhances the usability of assistive robots in home healthcare, industrial safety, and remote assistance scenarios, enabling seamless and intuitive interactions for users regardless of physical limitations

arxiv情報

著者 Eran Bamani Beeri,Eden Nissinman,Avishai Sintov
発行日 2025-05-30 16:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク