HandMime: Sign Language Fingerspelling Acquisition via Imitation Learning

要約

きめ細かな動きの学習は、ロボット工学で最も難しいトピックの 1 つです。
これは特にロボットハンドに当てはまります。
ロボットによる手話の習得、より具体的には、ロボットによるフィンガースペルによる手話の習得は、そのような課題の具体例と見なすことができます。
この論文では、追加情報を使用せずに、ビデオの例から器用な運動模倣を学習するためのアプローチを提案します。
各関節に 1 つのアクチュエータを備えたロボットハンドの URDF モデルを構築します。
事前トレーニング済みのディープ ビジョン モデルを活用して、RGB ビデオから手の 3D ポーズを抽出します。
次に、最先端の強化学習アルゴリズムを使用してモーション模倣 (つまり、近位ポリシー最適化) を行い、デモから抽出された動きを再現するポリシーをトレーニングします。
参照モーションに基づいて模倣を実行するためのハイパーパラメータの最適なセットを特定します。
さらに、6 つ以上の異なるフィンガースペル文字を一般化するアプローチの能力を示します。

要約(オリジナル)

Learning fine-grained movements is among the most challenging topics in robotics. This holds true especially for robotic hands. Robotic sign language acquisition or, more specifically, fingerspelling sign language acquisition in robots can be considered a specific instance of such challenge. In this paper, we propose an approach for learning dexterous motor imitation from videos examples, without the use of any additional information. We build an URDF model of a robotic hand with a single actuator for each joint. By leveraging pre-trained deep vision models, we extract the 3D pose of the hand from RGB videos. Then, using state-of-the-art reinforcement learning algorithms for motion imitation (namely, proximal policy optimisation), we train a policy to reproduce the movement extracted from the demonstrations. We identify the best set of hyperparameters to perform imitation based on a reference motion. Additionally, we demonstrate the ability of our approach to generalise over 6 different fingerspelled letters.

arxiv情報

著者 Federico Tavella,Aphrodite Galata,Angelo Cangelosi
発行日 2022-09-12 10:42:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, cs.RO パーマリンク