要約
動的なジェスチャにより、ロボットへの指示情報の転送が可能になります。
さらに、ロボットが遠距離からでも認識できるため、コミュニケーションがより効果的かつ実用的になります。
ただし、動的ジェスチャ用の現在の最先端モデルは認識距離に限界があり、通常は数メートル以内でしか効果的なパフォーマンスを達成できません。
この研究では、最大 20 メートルの長距離から動的なジェスチャを認識するためのモデルを提案します。
このモデルは、SlowFast アーキテクチャと Transformer アーキテクチャ (SFT) を統合し、ビデオ フレームでキャプチャされた複雑なジェスチャ シーケンスを効果的に処理および分類します。
SFTは従来機種に比べて優れた性能を発揮します。
要約(オリジナル)
Dynamic gestures enable the transfer of directive information to a robot. Moreover, the ability of a robot to recognize them from a long distance makes communication more effective and practical. However, current state-of-the-art models for dynamic gestures exhibit limitations in recognition distance, typically achieving effective performance only within a few meters. In this work, we propose a model for recognizing dynamic gestures from a long distance of up to 20 meters. The model integrates the SlowFast and Transformer architectures (SFT) to effectively process and classify complex gesture sequences captured in video frames. SFT demonstrates superior performance over existing models.
arxiv情報
著者 | Eran Bamani Beeri,Eden Nissinman,Avishai Sintov |
発行日 | 2024-06-18 09:17:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google