NMM-HRI: Natural Multi-modal Human-Robot Interaction with Voice and Deictic Posture via Large Language Model

要約

人間の意図をロボットコマンドに翻訳することは、高齢化社会におけるサービスロボットの将来にとって重要です。
ジェスチャーや口頭でのコマンドに依存する既存の人間とロボットの相互作用(HRI)システムは、複雑な構文や手話の困難により、高齢者にとっては非現実的です。
課題に対処するために、このホワイトペーパーでは、音声と神話の姿勢情報を組み合わせて、より自然なHRIシステムを作成するマルチモーダル相互作用フレームワークを紹介します。
視覚的なキューは、最初にオブジェクト検出モデルによって処理され、環境のグローバルな理解を得るため、境界ボックスは深さ情報に基づいて推定されます。
音声からテキストへのコマンドを備えた大規模な言語モデル(LLM)を使用し、選択した境界ボックスを一時的に並べることにより、ロボットアクションシーケンスを生成できますが、潜在的なLLM幻覚の問題を回避するためにキーコントロール構文の制約が適用されます。
このシステムは、ユニバーサルロボットUR3Eマニピュレーターを使用して、さまざまなレベルの複雑さを持つ実際のタスクで評価されます。
私たちの方法は、精度と堅牢性の点でHRIのパフォーマンスが大幅に向上することを示しています。
研究コミュニティと一般の人々に利益をもたらすために、私たちはコードと設計をオープンソースにします。

要約(オリジナル)

Translating human intent into robot commands is crucial for the future of service robots in an aging society. Existing Human-Robot Interaction (HRI) systems relying on gestures or verbal commands are impractical for the elderly due to difficulties with complex syntax or sign language. To address the challenge, this paper introduces a multi-modal interaction framework that combines voice and deictic posture information to create a more natural HRI system. The visual cues are first processed by the object detection model to gain a global understanding of the environment, and then bounding boxes are estimated based on depth information. By using a large language model (LLM) with voice-to-text commands and temporally aligned selected bounding boxes, robot action sequences can be generated, while key control syntax constraints are applied to avoid potential LLM hallucination issues. The system is evaluated on real-world tasks with varying levels of complexity using a Universal Robots UR3e manipulator. Our method demonstrates significantly better performance in HRI in terms of accuracy and robustness. To benefit the research community and the general public, we will make our code and design open-source.

arxiv情報

著者 Yuzhi Lai,Shenghai Yuan,Youssef Nassar,Mingyu Fan,Atmaraaj Gopal,Arihiro Yorita,Naoyuki Kubota,Matthias Rätsch
発行日 2025-02-12 02:11:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク