Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own

要約

強化学習(RL)は、ロボットの操作タスクを解決するための有望なアプローチである。しかし、RLアルゴリズムを実世界で直接適用するのは難しい。ひとつには、RLはデータ集約的であり、通常、数百万回の環境との相互作用を必要とするため、現実のシナリオでは非現実的である。また、報酬関数を手動で設計するためには、多大な工学的努力が必要である。これらの問題に対処するため、本稿では基礎モデルを活用する。我々は、政策、価値、成功報酬の基礎モデルからのガイダンスとフィードバックを利用するために、基礎プリアによる強化学習(Reinforcement Learning with Foundation Priors: RLFP)を提案する。このフレームワークの中で、我々は、自動的な報酬関数を用いて、より効率的に探索することを可能にする、ファンデーションガイド付きアクタークリティック(Foundation-guided Actor-Critic:FAC)アルゴリズムを導入する。私たちのフレームワークの利点は3つあります:(1)⑷テキストの効率化、(2)⑸最小かつ効果的な報酬工学、(3)⑸基礎モデルの形式にとらわれない、ノイズの多い事前分布に頑健。我々の手法は、実ロボットとシミュレーションの両方で、様々な操作タスクにおいて顕著な性能を達成した。実ロボットでの5つの器用なタスクにおいて、FACは1時間のリアルタイム学習で平均86%の成功率を達成した。シミュレーションされたメタワールドの8つのタスクにおいて、FACは100kフレーム未満(約1時間の学習)で7/8のタスクで100%の成功率を達成し、1Mフレームで手動で報酬を設計したベースライン手法を凌駕した。我々は、RLFPフレームワークにより、将来ロボットが物理世界でより多くのタスクを自律的に探索・学習できるようになると考えている。

要約(オリジナル)

Reinforcement learning (RL) is a promising approach for solving robotic manipulation tasks. However, it is challenging to apply the RL algorithms directly in the real world. For one thing, RL is data-intensive and typically requires millions of interactions with environments, which are impractical in real scenarios. For another, it is necessary to make heavy engineering efforts to design reward functions manually. To address these issues, we leverage foundation models in this paper. We propose Reinforcement Learning with Foundation Priors (RLFP) to utilize guidance and feedback from policy, value, and success-reward foundation models. Within this framework, we introduce the Foundation-guided Actor-Critic (FAC) algorithm, which enables embodied agents to explore more efficiently with automatic reward functions. The benefits of our framework are threefold: (1) \textit{sample efficient}; (2) \textit{minimal and effective reward engineering}; (3) \textit{agnostic to foundation model forms and robust to noisy priors}. Our method achieves remarkable performances in various manipulation tasks on both real robots and in simulation. Across 5 dexterous tasks with real robots, FAC achieves an average success rate of 86\% after one hour of real-time learning. Across 8 tasks in the simulated Meta-world, FAC achieves 100\% success rates in 7/8 tasks under less than 100k frames (about 1-hour training), outperforming baseline methods with manual-designed rewards in 1M frames. We believe the RLFP framework can enable future robots to explore and learn autonomously in the physical world for more tasks.

arxiv情報

著者 Weirui Ye,Yunsheng Zhang,Haoyang Weng,Xianfan Gu,Shengjie Wang,Tong Zhang,Mengchen Wang,Pieter Abbeel,Yang Gao
発行日 2024-10-03 05:57:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク