要約
ロボットエージェントは、自然言語の指導を通じて日常業務を解決するために、常識と長期にわたる連続的な意思決定を習得する必要があります。
自然言語処理における大規模言語モデル (LLM) の開発は、複雑なロボットの計画に LLM を使用する取り組みに影響を与えました。
LLM は指示タスクを非常に一般化し、理解しているにもかかわらず、LLM が生成したタスク プランは実現可能性や正確性に欠けることがあります。
この問題に対処するために、次の 2 つのモジュールを備えた、日々のタスクに対する具体的な長期的な意思決定を行うための RoboGPT エージェント\脚注{コードとデータセットは間もなくリリースされます}を提案します。1) LLM ベースの計画と、問題を打破するための再計画
タスクを複数のサブ目標に分割します。
2) RoboSkill は、より優れたナビゲーションおよび操作スキルを学習するためのサブ目標に合わせて個別に設計されています。
LLM ベースの計画は、RoboGPT と呼ばれる新しいロボット データセットと再計画によって強化されています。
Llama モデルを微調整し、RoboGPT を取得するために、67,000 の毎日の指示タスクの新しいロボット データセットが収集されます。
強力な一般化機能を備えた RoboGPT プランナーは、毎日の何百もの指示タスクを計画できます。
さらに、低計算量の Re-Plan モジュールは、計画が環境に柔軟に適応できるように設計されており、それによって命名規則の多様性の課題に対処します。
提案された RoboGPT エージェントは、ALFRED の日常タスクにおいて SOTA メソッドよりも優れたパフォーマンスを発揮します。
さらに、RoboGPT プランナーは、大規模モデル本来の広範なアプリケーションと汎用性を維持しながら、何百もの目に見えない日常タスク、さらには他のドメイン タスクに対するタスク計画の合理性において、ChatGPT のような SOTA LLM ベースのプランナーを上回っています。
要約(オリジナル)
Robotic agents must master common sense and long-term sequential decisions to solve daily tasks through natural language instruction. The developments in Large Language Models (LLMs) in natural language processing have inspired efforts to use LLMs in complex robot planning. Despite LLMs’ great generalization and comprehension of instruction tasks, LLMs-generated task plans sometimes lack feasibility and correctness. To address the problem, we propose a RoboGPT agent\footnote{our code and dataset will be released soon} for making embodied long-term decisions for daily tasks, with two modules: 1) LLMs-based planning with re-plan to break the task into multiple sub-goals; 2) RoboSkill individually designed for sub-goals to learn better navigation and manipulation skills. The LLMs-based planning is enhanced with a new robotic dataset and re-plan, called RoboGPT. The new robotic dataset of 67k daily instruction tasks is gathered for fine-tuning the Llama model and obtaining RoboGPT. RoboGPT planner with strong generalization can plan hundreds of daily instruction tasks. Additionally, a low-computational Re-Plan module is designed to allow plans to flexibly adapt to the environment, thereby addressing the nomenclature diversity challenge. The proposed RoboGPT agent outperforms SOTA methods on the ALFRED daily tasks. Moreover, RoboGPT planner exceeds SOTA LLM-based planners like ChatGPT in task-planning rationality for hundreds of unseen daily tasks, and even other domain tasks, while keeping the large model’s original broad application and generality.
arxiv情報
著者 | Yaran Chen,Wenbo Cui,Yuanwen Chen,Mining Tan,Xinyao Zhang,Dongbin Zhao,He Wang |
発行日 | 2024-09-13 09:36:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google