要約
高齢化社会におけるサービスロボットの将来にとって、人間の意図をロボットのコマンドに変換することは極めて重要である。ジェスチャーや言語による命令に頼った既存の人間とロボットのインタラクション(HRI)システムは、複雑な構文や手話が難しいため、高齢者には実用的ではない。この課題に対処するため、本論文では、音声と指示的姿勢情報を組み合わせて、より自然なHRIシステムを構築するマルチモーダルインタラクションのフレームワークを紹介する。視覚的な手がかりは、まず環境の全体的な理解を得るために物体検出モデルによって処理され、次に奥行き情報に基づいてバウンディングボックスが推定される。音声からテキストへのコマンドと時間的に整列された選択されたバウンディングボックスを持つ大規模言語モデル(LLM)を使用することにより、ロボットの行動シーケンスを生成することができ、潜在的なLLMの幻覚の問題を回避するために主要な制御構文制約が適用される。このシステムは、Universal Robots UR3eマニピュレータを用いて、様々な複雑さの実世界タスクで評価された。本手法は、HRIにおいて、精度と頑健性の点で著しく優れた性能を示す。研究コミュニティと一般の人々のために、我々はコードと設計をオープンソースにする予定である。
要約(オリジナル)
Translating human intent into robot commands is crucial for the future of service robots in an aging society. Existing Human-Robot Interaction (HRI) systems relying on gestures or verbal commands are impractical for the elderly due to difficulties with complex syntax or sign language. To address the challenge, this paper introduces a multi-modal interaction framework that combines voice and deictic posture information to create a more natural HRI system. The visual cues are first processed by the object detection model to gain a global understanding of the environment, and then bounding boxes are estimated based on depth information. By using a large language model (LLM) with voice-to-text commands and temporally aligned selected bounding boxes, robot action sequences can be generated, while key control syntax constraints are applied to avoid potential LLM hallucination issues. The system is evaluated on real-world tasks with varying levels of complexity using a Universal Robots UR3e manipulator. Our method demonstrates significantly better performance in HRI in terms of accuracy and robustness. To benefit the research community and the general public, we will make our code and design open-source.
arxiv情報
著者 | Yuzhi Lai,Shenghai Yuan,Youssef Nassar,Mingyu Fan,Atmaraaj Gopal,Arihiro Yorita,Naoyuki Kubota,Matthias Rätsch |
発行日 | 2025-01-01 09:48:16+00:00 |
arxivサイト | arxiv_id(pdf) |