要約
人間とロボットのコラボレーションには、ロボットにタスクを割り当て、アクティビティを調整するための効果的なコミュニケーション モードが必要です。
コミュニケーションはさまざまなモダリティを利用できるため、マルチモーダル アプローチは単一モーダル モデルだけよりも表現力が高くなります。
この研究では、人間とロボットのコラボレーションのためにロボットのタスクを割り当てることができる共同音声ジェスチャー モデルを提案します。
したがって、コンピュータビジョンと音声認識によって検出された人間のジェスチャーと音声は、シーン内のオブジェクトを参照し、それらにロボットの動作を適用できます。
実際の産業上のユースケースを使用したマルチモーダル共同音声モデルの実験的評価を紹介します。
結果は、マルチモーダル コミュニケーションが容易に達成でき、シングル モーダル ツールと比較してコラボレーションに利点をもたらすことができることを示しています。
要約(オリジナル)
Collaboration between human and robot requires effective modes of communication to assign robot tasks and coordinate activities. As communication can utilize different modalities, a multi-modal approach can be more expressive than single modal models alone. In this work we propose a co-speech gesture model that can assign robot tasks for human-robot collaboration. Human gestures and speech, detected by computer vision and speech recognition, can thus refer to objects in the scene and apply robot actions to them. We present an experimental evaluation of the multi-modal co-speech model with a real-world industrial use case. Results demonstrate that multi-modal communication is easy to achieve and can provide benefits for collaboration with respect to single modal tools.
arxiv情報
著者 | A. Ekrekli,A. Angleraud,G. Sharma,R. Pieters |
発行日 | 2023-11-30 06:44:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google