要約
言語モデルと視覚言語モデルは、最近、とりわけ人間の意図、推論、場面の理解、および計画のような行動をテキスト形式で理解するという点で、前例のない機能を実証しました。
この研究では、強化学習 (RL) エージェントにそのような機能を埋め込んで活用する方法を調査します。
私たちは言語を中心的な推論ツールとして使用するフレームワークを設計し、これによってエージェントが効率的な探索、経験データの再利用、スケジューリング スキル、観察からの学習など、従来は個別に必要とされてきた一連の基本的な RL の課題にどのように取り組むことができるかを調査します。
垂直的に設計されたアルゴリズム。
私たちは、ロボットがオブジェクトのセットを積み重ねる必要がある、報酬が少ないシミュレートされたロボット操作環境でメソッドをテストします。
探索効率とオフライン データセットからのデータを再利用する機能において、ベースラインと比べてパフォーマンスが大幅に向上していることを実証し、学習したスキルを再利用して新しいタスクを解決したり、人間の専門家のビデオを模倣したりする方法を示します。
要約(オリジナル)
Language Models and Vision Language Models have recently demonstrated unprecedented capabilities in terms of understanding human intentions, reasoning, scene understanding, and planning-like behaviour, in text form, among many others. In this work, we investigate how to embed and leverage such abilities in Reinforcement Learning (RL) agents. We design a framework that uses language as the core reasoning tool, exploring how this enables an agent to tackle a series of fundamental RL challenges, such as efficient exploration, reusing experience data, scheduling skills, and learning from observations, which traditionally require separate, vertically designed algorithms. We test our method on a sparse-reward simulated robotic manipulation environment, where a robot needs to stack a set of objects. We demonstrate substantial performance improvements over baselines in exploration efficiency and ability to reuse data from offline datasets, and illustrate how to reuse learned skills to solve novel tasks or imitate videos of human experts.
arxiv情報
著者 | Norman Di Palo,Arunkumar Byravan,Leonard Hasenclever,Markus Wulfmeier,Nicolas Heess,Martin Riedmiller |
発行日 | 2023-07-18 22:37:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google