Data-Efficient Task Generalization via Probabilistic Model-based Meta Reinforcement Learning

要約

変化するダイナミクスに制御ポリシーを効率的に適応させるように設計された新しいモデルベースのメタ強化学習 (Meta-RL) アルゴリズムである PACOH-RL を紹介します。
PACOH-RL はダイナミクス モデルの事前学習をメタ学習するため、最小限の相互作用データで新しいダイナミクスに迅速に適応できます。
既存の Meta-RL 手法は豊富なメタ学習データを必要とするため、データの取得にコストがかかるロボット工学などの環境への適用が制限されています。
これに対処するために、PACOH-RL では、メタ学習段階とタスク適応段階の両方に正則化と認識論的不確実性の定量化が組み込まれています。
新しいダイナミクスに直面したとき、私たちはこれらの不確実性の推定値を使用して、調査とデータ収集を効果的に導きます。
全体として、これにより、前のタスクや動的設定からのデータへのアクセスが厳しく制限されている場合でも、確実な転送が可能になります。
私たちの実験結果は、PACOH-RL が新しい動的条件への適応においてモデルベースの RL およびモデルベースの Meta-RL ベースラインよりも優れていることを示しています。
最後に、実際のロボットカーを使って、多様でデータが不足している状況下で効率的に RL ポリシーを適応できる可能性を示します。

要約(オリジナル)

We introduce PACOH-RL, a novel model-based Meta-Reinforcement Learning (Meta-RL) algorithm designed to efficiently adapt control policies to changing dynamics. PACOH-RL meta-learns priors for the dynamics model, allowing swift adaptation to new dynamics with minimal interaction data. Existing Meta-RL methods require abundant meta-learning data, limiting their applicability in settings such as robotics, where data is costly to obtain. To address this, PACOH-RL incorporates regularization and epistemic uncertainty quantification in both the meta-learning and task adaptation stages. When facing new dynamics, we use these uncertainty estimates to effectively guide exploration and data collection. Overall, this enables positive transfer, even when access to data from prior tasks or dynamic settings is severely limited. Our experiment results demonstrate that PACOH-RL outperforms model-based RL and model-based Meta-RL baselines in adapting to new dynamic conditions. Finally, on a real robotic car, we showcase the potential for efficient RL policy adaptation in diverse, data-scarce conditions.

arxiv情報

著者 Arjun Bhardwaj,Jonas Rothfuss,Bhavya Sukhija,Yarden As,Marco Hutter,Stelian Coros,Andreas Krause
発行日 2024-02-06 20:41:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク