Mani-GPT: A Generative Model for Interactive Robotic Manipulation

要約

実世界のシナリオでは、人間の対話は多面的で多様である。さらに、人間の指示は不明瞭であり、人間の反応は無制限である。対話ロボットは、人間の意図を理解し、操作を通じて個人を支援するための適切な戦略を生成することの難しさに直面している。本稿では、対話型ロボット操作のための生成的事前学習変換器(GPT)であるMani-GPTを提案する。提案モデルは、物体情報から環境を理解し、対話から人間の意図を理解し、人間の入力に対する自然言語応答を生成し、人間を支援するための適切な操作計画を生成する能力を持つ。これにより、人間とロボットのインタラクションはより自然で人間的なものとなる。我々の実験では、Mani-GPTは既存のアルゴリズムを凌駕する84.6%の精度で意図を認識し、行動の意思決定を行う。さらに、ユーザとの実際の対話テストにおいても、平均70%の応答精度を達成し、満足のいくパフォーマンスを示している。

要約(オリジナル)

In real-world scenarios, human dialogues are multi-round and diverse. Furthermore, human instructions can be unclear and human responses are unrestricted. Interactive robots face difficulties in understanding human intents and generating suitable strategies for assisting individuals through manipulation. In this article, we propose Mani-GPT, a Generative Pre-trained Transformer (GPT) for interactive robotic manipulation. The proposed model has the ability to understand the environment through object information, understand human intent through dialogues, generate natural language responses to human input, and generate appropriate manipulation plans to assist the human. This makes the human-robot interaction more natural and humanized. In our experiment, Mani-GPT outperforms existing algorithms with an accuracy of 84.6% in intent recognition and decision-making for actions. Furthermore, it demonstrates satisfying performance in real-world dialogue tests with users, achieving an average response accuracy of 70%.

arxiv情報

著者 Zhe Zhang,Wei Chaid,Jiankun Wang
発行日 2023-08-03 06:35:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク