ExploRLLM: Guiding Exploration in Reinforcement Learning with Large Language Models

要約

広い観察空間とアクション空間を伴う画像ベースのロボット操作タスクでは、強化学習はサンプル効率の低さ、トレーニング速度の遅さ、および不確実な収束という問題に悩まされます。
代わりに、大規模な事前トレーニング済み基礎モデルがロボット操作、特にゼロショットおよび少数ショットのアプリケーションで有望であることが示されています。
ただし、これらのモデルを直接使用することは、推論能力が限られており、物理的および空間的コンテキストを理解することが難しいため、信頼性が低くなります。
この論文では、基礎モデル (大規模言語モデルなど) の帰納的バイアスを利用して強化学習の探索をガイドする新しいアプローチである ExploRLLM を紹介します。
また、これらの基礎モデルを利用してアクション空間と観察空間を再定式化し、強化学習におけるトレーニング効率を高めます。
私たちの実験では、ガイド付き探索を使用すると、それを使用しないトレーニングよりもはるかに迅速な収束が可能であることが実証されました。
さらに、ExploRLLM がバニラ基礎モデルのベースラインよりも優れたパフォーマンスを示し、シミュレーションでトレーニングされたポリシーが追加のトレーニングなしで現実世界の設定に適用できることを検証します。

要約(オリジナル)

In image-based robot manipulation tasks with large observation and action spaces, reinforcement learning struggles with low sample efficiency, slow training speed, and uncertain convergence. As an alternative, large pre-trained foundation models have shown promise in robotic manipulation, particularly in zero-shot and few-shot applications. However, using these models directly is unreliable due to limited reasoning capabilities and challenges in understanding physical and spatial contexts. This paper introduces ExploRLLM, a novel approach that leverages the inductive bias of foundation models (e.g. Large Language Models) to guide exploration in reinforcement learning. We also exploit these foundation models to reformulate the action and observation spaces to enhance the training efficiency in reinforcement learning. Our experiments demonstrate that guided exploration enables much quicker convergence than training without it. Additionally, we validate that ExploRLLM outperforms vanilla foundation model baselines and that the policy trained in simulation can be applied in real-world settings without additional training.

arxiv情報

著者 Runyu Ma,Jelle Luijkx,Zlatan Ajanovic,Jens Kober
発行日 2024-03-15 08:47:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク