MoVEInt: Mixture of Variational Experts for Learning Human-Robot Interactions from Demonstrations

要約

共有ダイナミクス モデルは、ヒューマン ロボット インタラクション (HRI) に固有の複雑さと変動性を把握するために重要です。
したがって、このような共有ダイナミクス モデルを学習すると、協調性と適応性が強化され、人間のパートナーとの反応的な相互作用を成功させることができます。
この研究では、人間の観察からロボットの動作を反応的に生成するために、専門家混合の方法でデモンストレーションから HRI の共有潜在空間表現を学習するための新しいアプローチを提案します。
混合密度ネットワーク (MDN) を介して人間の観察のマルチモダリティを捕捉する情報潜在空間事前を使用して正規化されたロボットの動きを学習するために、変分オートエンコーダー (VAE) をトレーニングします。
私たちの定式化が、人間とロボットの動作にわたる同時分布を学習するための HMM/GMM の使用など、デモンストレーションから HRI を学習するために通常使用されるアプローチである混合ガウス回帰定式化からどのように導出されるかを示します。
さらに、VAE で潜在空間混合モデルを使用する場合に一般的な現象である「モード崩壊」を防ぐために、追加の正則化を組み込みます。
VAE に対して人間の観察から事前に有益な MDN を使用するアプローチは、共有潜在表現を学習する以前の HMM ベースまたは反復的なアプローチと比較して、より正確なロボットの動作を生成することがわかりました。これは、ハンドシェイクなどのインタラクションを含むさまざまな HRI データセットで検証されています。
ガッツポーズ、手を振り、そして引き継ぎ。
現実世界の人間からロボットへの引き継ぎシナリオでのさらなる実験では、4 つの異なる人間の対話パートナーとの対話を成功させるための私たちのアプローチの有効性が示されています。

要約(オリジナル)

Shared dynamics models are important for capturing the complexity and variability inherent in Human-Robot Interaction (HRI). Therefore, learning such shared dynamics models can enhance coordination and adaptability to enable successful reactive interactions with a human partner. In this work, we propose a novel approach for learning a shared latent space representation for HRIs from demonstrations in a Mixture of Experts fashion for reactively generating robot actions from human observations. We train a Variational Autoencoder (VAE) to learn robot motions regularized using an informative latent space prior that captures the multimodality of the human observations via a Mixture Density Network (MDN). We show how our formulation derives from a Gaussian Mixture Regression formulation that is typically used approaches for learning HRI from demonstrations such as using an HMM/GMM for learning a joint distribution over the actions of the human and the robot. We further incorporate an additional regularization to prevent ‘mode collapse’, a common phenomenon when using latent space mixture models with VAEs. We find that our approach of using an informative MDN prior from human observations for a VAE generates more accurate robot motions compared to previous HMM-based or recurrent approaches of learning shared latent representations, which we validate on various HRI datasets involving interactions such as handshakes, fistbumps, waving, and handovers. Further experiments in a real-world human-to-robot handover scenario show the efficacy of our approach for generating successful interactions with four different human interaction partners.

arxiv情報

著者 Vignesh Prasad,Alap Kshirsagar,Dorothea Koert,Ruth Stock-Homburg,Jan Peters,Georgia Chalvatzaki
発行日 2024-07-10 13:16:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.RO パーマリンク