要約
ロボットを人口の多い環境に統合することは、人間の社会力学を理解する必要がある複雑な課題です。
この研究では、人間とロボットの共有表現空間で社会動作予測をモデル化することを提案します。これにより、動作訓練でロボットを観察していなくても、社会シナリオで人間と対話するロボットの動作を合成することが容易になります。
私たちは、ECHO と呼ばれる変圧器ベースのアーキテクチャを開発します。これは、前述の共有空間で動作し、社会的シナリオで遭遇するエージェントの将来の動きを予測します。
以前の研究とは対照的に、我々は社会的動きの問題を、周囲のエージェントに基づいて予測された個々の動きを改良するものとして再定式化します。これにより、トレーニングが容易になり、シーンに人間が 1 人だけいる場合の単一の動きの予測が可能になります。
私たちは複数人および人間ロボットの動作予測タスクでモデルを評価し、効率的かつリアルタイムで実行しながら、大幅なマージンで最先端のパフォーマンスを獲得しました。
さらに、定性的な結果は、テキスト コマンドで制御できる人間とロボットのインタラクション動作を生成する際のアプローチの有効性を示しています。
要約(オリジナル)
Integrating robots into populated environments is a complex challenge that requires an understanding of human social dynamics. In this work, we propose to model social motion forecasting in a shared human-robot representation space, which facilitates us to synthesize robot motions that interact with humans in social scenarios despite not observing any robot in the motion training. We develop a transformer-based architecture called ECHO, which operates in the aforementioned shared space to predict the future motions of the agents encountered in social scenarios. Contrary to prior works, we reformulate the social motion problem as the refinement of the predicted individual motions based on the surrounding agents, which facilitates the training while allowing for single-motion forecasting when only one human is in the scene. We evaluate our model in multi-person and human-robot motion forecasting tasks and obtain state-of-the-art performance by a large margin while being efficient and performing in real-time. Additionally, our qualitative results showcase the effectiveness of our approach in generating human-robot interaction behaviors that can be controlled via text commands.
arxiv情報
著者 | Esteve Valls Mascaro,Yashuai Yan,Dongheui Lee |
発行日 | 2024-02-07 11:37:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google