Unsupervised human-to-robot motion retargeting via expressive latent space

要約

この論文では、人間からロボットへのモーションのリターゲティングのための新しいアプローチを紹介します。これにより、ロボットがモーションのセマンティクスを維持しながら人間のモーションを正確に模倣できるようになります。
そのために、人間の動きをロボットの動きに直接変換するための深層学習手法を提案します。
私たちの方法では、注釈付きの人間とロボットのペアのモーション データを必要としないため、新しいロボットを導入する際の労力が軽減されます。
この目的を達成するために、まず、異なるドメイン (つまり、人間とロボット) のポーズを比較するためのクロスドメイン類似性メトリックを提案します。
次に、私たちの方法は、対照学習を通じて共有潜在空間の構築を達成し、潜在表現をロボットの運動制御コマンドに解読します。
学習された潜在空間は動きを正確に捉えて表現力を発揮し、潜在空間内での直接的な動き制御が可能になります。
投影された 2 つの人間のポーズの間の潜在空間に単純な線形補間を通じて中間モーションを生成する方法を紹介します。
さらに、テキスト、RGBビデオ、キーポーズなどの多様なモダリティ入力を使用したロボット制御の総合的な評価を実施し、あらゆるバックグラウンドのユーザーにとってロボット制御の使いやすさを向上させました。
最後に、私たちのモデルを既存の研究と比較し、人間とロボットの自然なコミュニケーションを強化し、ロボットを日常生活に統合することに対する信頼を育むという私たちのアプローチの有効性を定量的および定性的に実証します。

要約(オリジナル)

This paper introduces a novel approach for human-to-robot motion retargeting, enabling robots to mimic human motion with precision while preserving the semantics of the motion. For that, we propose a deep learning method for direct translation from human to robot motion. Our method does not require annotated paired human-to-robot motion data, which reduces the effort when adopting new robots. To this end, we first propose a cross-domain similarity metric to compare the poses from different domains (i.e., human and robot). Then, our method achieves the construction of a shared latent space via contrastive learning and decodes latent representations to robot motion control commands. The learned latent space exhibits expressiveness as it captures the motions precisely and allows direct motion control in the latent space. We showcase how to generate in-between motion through simple linear interpolation in the latent space between two projected human poses. Additionally, we conducted a comprehensive evaluation of robot control using diverse modality inputs, such as texts, RGB videos, and key-poses, which enhances the ease of robot control to users of all backgrounds. Finally, we compare our model with existing works and quantitatively and qualitatively demonstrate the effectiveness of our approach, enhancing natural human-robot communication and fostering trust in integrating robots into daily life.

arxiv情報

著者 Yashuai Yan,Esteve Valls Mascaro,Dongheui Lee
発行日 2023-09-11 08:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク