要約
強化学習 (RL) は、ロボット操作タスクを解決するための有望なアプローチです。
ただし、RL アルゴリズムを現実世界に直接適用することは困難です。
まず、RL はデータ集約的であり、通常は環境との何百万もの対話を必要としますが、これは実際のシナリオでは非現実的です。
もう 1 つは、報酬関数を手動で設計するために多大なエンジニアリング作業を行う必要があることです。
これらの問題に対処するために、このペーパーでは基礎モデルを活用します。
私たちは、ポリシー、価値、成功報酬基盤モデルからのガイダンスとフィードバックを活用するために、基盤事前学習による強化学習 (RLFP) を提案します。
このフレームワーク内で、財団主導のアクター・クリティック (FAC) アルゴリズムを導入します。これにより、身体化されたエージェントが自動報酬機能を使用してより効率的に探索できるようになります。
私たちのフレームワークには次の 3 つの利点があります: (1) \textit{サンプル効率};
(2) \textit{最小限かつ効果的な報酬エンジニアリング};
(3) \textit{基礎モデルの形式に依存せず、ノイズの多い事前分布に対して堅牢}。
私たちの手法は、実際のロボットとシミュレーションの両方でさまざまな操作タスクにおいて顕著なパフォーマンスを達成します。
実際のロボットを使用した 5 つの器用なタスクにわたって、FAC は 1 時間のリアルタイム学習後に平均 86\% の成功率を達成しました。
シミュレートされたメタワールドの 8 つのタスクにわたって、FAC は 100,000 フレーム未満 (約 1 時間のトレーニング) で 7/8 タスクで 100\% の成功率を達成し、100 万フレームで手動で設計された報酬を伴うベースライン手法を上回りました。
私たちは、RLFP フレームワークにより、将来のロボットがより多くのタスクのために物理世界で自律的に探索および学習できるようになると信じています。
ビジュアライゼーションとコードは \url{https://yewr.github.io/rlfp} で入手できます。
要約(オリジナル)
Reinforcement learning (RL) is a promising approach for solving robotic manipulation tasks. However, it is challenging to apply the RL algorithms directly in the real world. For one thing, RL is data-intensive and typically requires millions of interactions with environments, which are impractical in real scenarios. For another, it is necessary to make heavy engineering efforts to design reward functions manually. To address these issues, we leverage foundation models in this paper. We propose Reinforcement Learning with Foundation Priors (RLFP) to utilize guidance and feedback from policy, value, and success-reward foundation models. Within this framework, we introduce the Foundation-guided Actor-Critic (FAC) algorithm, which enables embodied agents to explore more efficiently with automatic reward functions. The benefits of our framework are threefold: (1) \textit{sample efficient}; (2) \textit{minimal and effective reward engineering}; (3) \textit{agnostic to foundation model forms and robust to noisy priors}. Our method achieves remarkable performances in various manipulation tasks on both real robots and in simulation. Across 5 dexterous tasks with real robots, FAC achieves an average success rate of 86\% after one hour of real-time learning. Across 8 tasks in the simulated Meta-world, FAC achieves 100\% success rates in 7/8 tasks under less than 100k frames (about 1-hour training), outperforming baseline methods with manual-designed rewards in 1M frames. We believe the RLFP framework can enable future robots to explore and learn autonomously in the physical world for more tasks. Visualizations and code are available at \url{https://yewr.github.io/rlfp}.
arxiv情報
著者 | Weirui Ye,Yunsheng Zhang,Haoyang Weng,Xianfan Gu,Shengjie Wang,Tong Zhang,Mengchen Wang,Pieter Abbeel,Yang Gao |
発行日 | 2024-10-11 15:36:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google