Imitation Bootstrapped Reinforcement Learning

要約

強化学習(RL)の大きな可能性にもかかわらず、ロボット制御タスクでは、サンプル効率の良さから、模倣学習(IL)が主に用いられている。しかし、ILがすべての可能なシナリオに汎化できるような包括的な専門家のデモンストレーションを収集するにはコストがかかり、分布が変化した場合には、微調整のためにデータを再収集する必要がある。従って、RLは効率的な自律的自己改善手順としてILの上に構築できれば魅力的である。本論文では、模倣ブートストラップ強化学習(IBRL)を提案する。IBRLは、デモを用いたサンプル効率の良いRLのための新しいフレームワークであり、最初に与えられたデモに対してILポリシーを学習し、次にそれを用いてオンライン探索と目標値のブートストラップの両方のための代替アクションを提案する。実証実験をオーバーサンプリングしたり、模倣損失を追加してRLを正則化したりする先行研究と比較して、IBRLは学習の初期段階からILポリシーから高品質のアクションを利用することができ、探索と学習の効率を大幅に加速する。様々な難易度に渡る6つのシミュレーションタスクと3つの実世界タスクでIBRLを評価する。IBRLは先行手法を大幅に上回り、特に難易度の高いタスクにおいてその改善が顕著である。

要約(オリジナル)

Despite the considerable potential of reinforcement learning (RL), robotic control tasks predominantly rely on imitation learning (IL) due to its better sample efficiency. However, it is costly to collect comprehensive expert demonstrations that enable IL to generalize to all possible scenarios, and any distribution shift would require recollecting data for finetuning. Therefore, RL is appealing if it can build upon IL as an efficient autonomous self-improvement procedure. We propose imitation bootstrapped reinforcement learning (IBRL), a novel framework for sample-efficient RL with demonstrations that first trains an IL policy on the provided demonstrations and then uses it to propose alternative actions for both online exploration and bootstrapping target values. Compared to prior works that oversample the demonstrations or regularize RL with an additional imitation loss, IBRL is able to utilize high quality actions from IL policies since the beginning of training, which greatly accelerates exploration and training efficiency. We evaluate IBRL on 6 simulation and 3 real-world tasks spanning various difficulty levels. IBRL significantly outperforms prior methods and the improvement is particularly more prominent in harder tasks.

arxiv情報

著者 Hengyuan Hu,Suvir Mirchandani,Dorsa Sadigh
発行日 2024-02-29 19:35:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク