要約
近年、自律エージェントは、家庭、オフィス、公共スペースなどの現実世界の環境で急増しています。
しかし、人間とロボットの自然なインタラクションは依然として重要な課題です。
この論文では、大規模言語モデル (LLM) とマルチモーダル ビジョン言語モデル (VLM) の機能を相乗的に活用し、人間が会話型対話を通じて自律ロボットと自然に対話できるようにするアプローチを紹介します。
私たちは LLM を活用して人間からの高レベルの自然言語命令をデコードし、それらをロボットが実行可能な正確なコマンドまたはクエリに抽象化しました。
さらに、VLM を利用して、ロボットのタスク環境を視覚的かつ意味的に理解できるようにしました。
99.13% のコマンド認識精度と 97.96% のコマンド実行成功という結果は、私たちのアプローチが現実世界のアプリケーションにおける人間とロボットのインタラクションを強化できることを示しています。
この論文のビデオデモは https://osf.io/wzyf6 で見ることができ、コードは GitHub リポジトリ (https://github.com/LinusNEP/TCC_IRoNL.git) で入手できます。
要約(オリジナル)
In recent years, autonomous agents have surged in real-world environments such as our homes, offices, and public spaces. However, natural human-robot interaction remains a key challenge. In this paper, we introduce an approach that synergistically exploits the capabilities of large language models (LLMs) and multimodal vision-language models (VLMs) to enable humans to interact naturally with autonomous robots through conversational dialogue. We leveraged the LLMs to decode the high-level natural language instructions from humans and abstract them into precise robot actionable commands or queries. Further, we utilised the VLMs to provide a visual and semantic understanding of the robot’s task environment. Our results with 99.13% command recognition accuracy and 97.96% commands execution success show that our approach can enhance human-robot interaction in real-world applications. The video demonstrations of this paper can be found at https://osf.io/wzyf6 and the code is available at our GitHub repository (https://github.com/LinusNEP/TCC_IRoNL.git).
arxiv情報
著者 | Linus Nwankwo,Elmar Rueckert |
発行日 | 2024-01-22 10:55:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google