要約
現実世界のシナリオでは、人間の対話は多段階かつ多様です。
さらに、人間の指示は不明確な場合があり、人間の応答は制限されません。
対話型ロボットは、人間の意図を理解し、操作を通じて個人を支援するための適切な戦略を生成することが困難に直面しています。
この記事では、対話型ロボット操作のための生成事前訓練トランスフォーマー (GPT) である Mani-GPT を提案します。
提案されたモデルは、オブジェクト情報を通じて環境を理解し、対話を通じて人間の意図を理解し、人間の入力に対する自然言語応答を生成し、人間を支援するための適切な操作計画を生成する機能を備えています。
これにより、人間とロボットのインタラクションがより自然で人間味のあるものになります。
私たちの実験では、Mani-GPT は意図認識とアクションの意思決定において 84.6% の精度で既存のアルゴリズムを上回りました。
さらに、実際のユーザーとの対話テストでも平均応答精度70%を達成するなど、満足のいく性能を発揮しています。
要約(オリジナル)
In real-world scenarios, human dialogues are multi-round and diverse. Furthermore, human instructions can be unclear and human responses are unrestricted. Interactive robots face difficulties in understanding human intents and generating suitable strategies for assisting individuals through manipulation. In this article, we propose Mani-GPT, a Generative Pre-trained Transformer (GPT) for interactive robotic manipulation. The proposed model has the ability to understand the environment through object information, understand human intent through dialogues, generate natural language responses to human input, and generate appropriate manipulation plans to assist the human. This makes the human-robot interaction more natural and humanized. In our experiment, Mani-GPT outperforms existing algorithms with an accuracy of 84.6% in intent recognition and decision-making for actions. Furthermore, it demonstrates satisfying performance in real-world dialogue tests with users, achieving an average response accuracy of 70%.
arxiv情報
著者 | Zhe Zhang,Wei Chai,Jiankun Wang |
発行日 | 2023-08-08 02:13:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google