要約
Large Language Model (LLM) の出現により、ロボット タスクの見通しが改善されました。
ただし、既存のベンチマークは依然として単一タスクに限定されており、一般化機能も限られています。
この研究では、複雑な環境におけるロボットの汎化能力を強化することを目的とした、包括的なベンチマークと自律学習フレームワークである RoboCoder を紹介します。
シングルタスクの学習に焦点を当てた従来の方法とは異なり、私たちの研究では、ロボットが基本的なスキルを活用してますます複雑化するタスクに取り組むことを可能にする汎用ロボットコーディングアルゴリズムの開発に重点を置いています。
新しく提案されたベンチマークは、7 つの異なるエンティティにわたって手動で設計された 80 のタスクで構成され、最小限の初期習熟からモデルが学習する能力をテストします。
初期テストでは、GPT-4 のような高度なモデルでも、人型エンティティを使用した 3 ショット シナリオでは 47% の合格率しか達成できないことが明らかになりました。
これらの制限に対処するために、RoboCoder フレームワークは、大規模言語モデル (LLM) を、リアルタイムの環境フィードバックを使用してアクション コードを継続的に更新および改良する動的学習システムと統合します。
この適応方法は顕著な改善を示し、36% の相対的な改善を達成しました。
私たちのコードが公開されます。
要約(オリジナル)
The emergence of Large Language Models (LLMs) has improved the prospects for robotic tasks. However, existing benchmarks are still limited to single tasks with limited generalization capabilities. In this work, we introduce a comprehensive benchmark and an autonomous learning framework, RoboCoder aimed at enhancing the generalization capabilities of robots in complex environments. Unlike traditional methods that focus on single-task learning, our research emphasizes the development of a general-purpose robotic coding algorithm that enables robots to leverage basic skills to tackle increasingly complex tasks. The newly proposed benchmark consists of 80 manually designed tasks across 7 distinct entities, testing the models’ ability to learn from minimal initial mastery. Initial testing revealed that even advanced models like GPT-4 could only achieve a 47% pass rate in three-shot scenarios with humanoid entities. To address these limitations, the RoboCoder framework integrates Large Language Models (LLMs) with a dynamic learning system that uses real-time environmental feedback to continuously update and refine action codes. This adaptive method showed a remarkable improvement, achieving a 36% relative improvement. Our codes will be released.
arxiv情報
著者 | Jingyao Li,Pengguang Chen,Sitong Wu,Chuanyang Zheng,Hong Xu,Jiaya Jia |
発行日 | 2024-06-06 05:41:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google