要約
ロボットの操作では、補強学習(RL)は、特に大規模な観察スペースとアクション空間で、サンプルの効率が低く、不確実な収束に苦しむことがよくあります。
Foundation Models(FMS)は、代替品を提供し、ゼロショットと少数のショット設定で約束を示しています。
ただし、身体的および空間的理解が限られているため、それらは信頼できない場合があります。
両方のパラダイムの強度を組み合わせた方法であるExplorllmを紹介します。
私たちのアプローチでは、FMSはポリシーコードと効率的な表現を生成することによりRLの収束を改善しますが、残留RLエージェントはFMSの限られた身体的理解を補正します。
Explorllmは、テーブルトップ操作タスクのFMSベースラインとRLベースラインから派生した両方のポリシーを上回ることを示します。
さらに、実際の実験は、ポリシーが有望なゼロショットSIMからリアルへの転送を示すことを示しています。
補足資料はhttps://explorllm.github.ioで入手できます。
要約(オリジナル)
In robot manipulation, Reinforcement Learning (RL) often suffers from low sample efficiency and uncertain convergence, especially in large observation and action spaces. Foundation Models (FMs) offer an alternative, demonstrating promise in zero-shot and few-shot settings. However, they can be unreliable due to limited physical and spatial understanding. We introduce ExploRLLM, a method that combines the strengths of both paradigms. In our approach, FMs improve RL convergence by generating policy code and efficient representations, while a residual RL agent compensates for the FMs’ limited physical understanding. We show that ExploRLLM outperforms both policies derived from FMs and RL baselines in table-top manipulation tasks. Additionally, real-world experiments show that the policies exhibit promising zero-shot sim-to-real transfer. Supplementary material is available at https://explorllm.github.io.
arxiv情報
著者 | Runyu Ma,Jelle Luijkx,Zlatan Ajanovic,Jens Kober |
発行日 | 2025-04-17 08:37:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google