要約
最近、ChatGPT や GPT-4 のような事前トレーニングされた大規模言語モデル (LLM) の出現により、マシンの自然言語理解機能が大幅に進歩しました。
この画期的な進歩により、これらのオープンソース LLM を統合ロボット シミュレーター環境にシームレスに統合し、ロボットが人間の自然言語命令を正確に理解して実行できるようになりました。
この目的を達成するために、この研究では、現実的なロボット操作シミュレーターを導入し、これに基づいて漸進推論タスクによるロボット操作 (RM-PRT) ベンチマークを構築します。
具体的には、RM-PRT ベンチマークは、Unreal Engine 5 に基づいて新しい高忠実度のデジタル ツイン シーンを構築します。これには、ロボット操作の詳細な評価のために ChatGPT によって生成された 782 のカテゴリ、2023 のオブジェクト、および 15K の自然言語命令が含まれています。
私たちは、自然言語命令を含むマルチモーダル プロンプトを入力として受け取り、動きと位置の遷移を含むアクションを自動的に出力する、RM-PRT ベンチマーク用の一般的なパイプラインを提案します。
漸進的な推論レベルを持つ 4 つの自然言語理解タスクを設定し、吸着と把握の 2 つのモードで自然言語命令を理解するロボットの能力を評価します。
さらに、命令の理解と生成の品質における 10 種類の LLM の違いと利点の包括的な分析と比較も行います。
私たちは、新しいシミュレーターとベンチマークが言語誘導ロボット操作に関する将来の研究を促進することを願っています。
プロジェクトの Web サイト: https://necolizer.github.io/RM-PRT/ 。
要約(オリジナル)
Recently, the advent of pre-trained large-scale language models (LLMs) like ChatGPT and GPT-4 have significantly advanced the machine’s natural language understanding capabilities. This breakthrough has allowed us to seamlessly integrate these open-source LLMs into a unified robot simulator environment to help robots accurately understand and execute human natural language instructions. To this end, in this work, we introduce a realistic robotic manipulation simulator and build a Robotic Manipulation with Progressive Reasoning Tasks (RM-PRT) benchmark on this basis. Specifically, the RM-PRT benchmark builds a new high-fidelity digital twin scene based on Unreal Engine 5, which includes 782 categories, 2023 objects, and 15K natural language instructions generated by ChatGPT for a detailed evaluation of robot manipulation. We propose a general pipeline for the RM-PRT benchmark that takes as input multimodal prompts containing natural language instructions and automatically outputs actions containing the movement and position transitions. We set four natural language understanding tasks with progressive reasoning levels and evaluate the robot’s ability to understand natural language instructions in two modes of adsorption and grasping. In addition, we also conduct a comprehensive analysis and comparison of the differences and advantages of 10 different LLMs in instruction understanding and generation quality. We hope the new simulator and benchmark will facilitate future research on language-guided robotic manipulation. Project website: https://necolizer.github.io/RM-PRT/ .
arxiv情報
著者 | Pengzhen Ren,Kaidong Zhang,Hetao Zheng,Zixuan Li,Yuhang Wen,Fengda Zhu,Mas Ma,Xiaodan Liang |
発行日 | 2023-06-21 06:56:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google