Signs of Language: Embodied Sign Language Fingerspelling Acquisition from Demonstrations for Human-Robot Interaction

要約

ロボット工学の中でも、特にロボットハンドの分野では、きめ細かい動作の学習が難しいテーマとなっています。この課題の具体的な例として、ロボットの指文字手話の習得がある。本論文では、追加情報なしにビデオ例から器用な運動模倣を学習するためのアプローチを提案する。これを実現するために、まず、各関節に単一のアクチュエータを持つロボットハンドのURDFモデルを構築します。次に、事前に訓練されたディープビジョンモデルを活用し、RGB動画から手の3Dポーズを抽出します。次に、動作模倣のための最先端の強化学習アルゴリズム(すなわち、プロキシマルポリシー最適化とソフトアクタークリティック)を用いて、デモから抽出された動きを再現するポリシーを訓練します。また、参照動作に基づき、模倣に最適なハイパーパラメータのセットを特定する。最後に、指で綴った文字に対応する6種類のタスクでテストすることにより、本アプローチの一般性を実証する。その結果、本アプローチは、追加情報なしに、これらの細かい動きをうまく模倣することができ、ロボット工学における実世界での応用の可能性を強調することができた。

要約(オリジナル)

Learning fine-grained movements is a challenging topic in robotics, particularly in the context of robotic hands. One specific instance of this challenge is the acquisition of fingerspelling sign language in robots. In this paper, we propose an approach for learning dexterous motor imitation from video examples without additional information. To achieve this, we first build a URDF model of a robotic hand with a single actuator for each joint. We then leverage pre-trained deep vision models to extract the 3D pose of the hand from RGB videos. Next, using state-of-the-art reinforcement learning algorithms for motion imitation (namely, proximal policy optimization and soft actor-critic), we train a policy to reproduce the movement extracted from the demonstrations. We identify the optimal set of hyperparameters for imitation based on a reference motion. Finally, we demonstrate the generalizability of our approach by testing it on six different tasks, corresponding to fingerspelled letters. Our results show that our approach is able to successfully imitate these fine-grained movements without additional information, highlighting its potential for real-world applications in robotics.

arxiv情報

著者 Federico Tavella,Aphrodite Galata,Angelo Cangelosi
発行日 2023-06-05 12:56:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG, cs.RO パーマリンク