Large Language Models for Multi-Modal Human-Robot Interaction

要約

この論文では、マルチモーダルなヒューマン ロボット インタラクション (HRI) を強化するための革新的なラージ言語モデル (LLM) ベースのロボット システムを紹介します。
従来の HRI システムは、意図の推定、推論、動作の生成を複雑な設計に依存しており、リソースを大量に消費していました。
対照的に、私たちのシステムは、研究者や実践者が 3 つの主要な側面を通じてロボットの動作を制御できるようにします。つまり、高レベルの言語ガイダンスの提供、ロボットが使用できる動作と表現の「アトミック」の作成、および一連の例の提供です。
物理的なロボットに実装すると、研究者が定義したガイドラインに従って、マルチモーダルな入力に適応し、アームで人間を支援するための適切な動作方法を決定する能力を実証します。
同時に、ロボットのまぶた、首、耳の動きを音声出力と調整して、ダイナミックでマルチモーダルな表現を生成します。
これは、従来の手動による状態とフローの設計手法から、直感的でガイダンスベースのサンプル主導のアプローチに移行することで、HRI に革命をもたらすシステムの可能性を示しています。

要約(オリジナル)

This paper presents an innovative large language model (LLM)-based robotic system for enhancing multi-modal human-robot interaction (HRI). Traditional HRI systems relied on complex designs for intent estimation, reasoning, and behavior generation, which were resource-intensive. In contrast, our system empowers researchers and practitioners to regulate robot behavior through three key aspects: providing high-level linguistic guidance, creating ‘atomics’ for actions and expressions the robot can use, and offering a set of examples. Implemented on a physical robot, it demonstrates proficiency in adapting to multi-modal inputs and determining the appropriate manner of action to assist humans with its arms, following researchers’ defined guidelines. Simultaneously, it coordinates the robot’s lid, neck, and ear movements with speech output to produce dynamic, multi-modal expressions. This showcases the system’s potential to revolutionize HRI by shifting from conventional, manual state-and-flow design methods to an intuitive, guidance-based, and example-driven approach.

arxiv情報

著者 Chao Wang,Stephan Hasler,Daniel Tanneberg,Felix Ocker,Frank Joublin,Antonello Ceravola,Joerg Deigmoeller,Michael Gienger
発行日 2024-03-21 13:16:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO パーマリンク