要約
環境の内部モデルを学習する強化学習 (RL) 手法は、モデルを使用しない手法よりもサンプル効率が高い可能性がありますが、高次元センサーからの生の観測値をモデル化する学習は困難な場合があります。
これまでの研究では、再構成や値の予測などの補助目的を通じて観測値の低次元表現を学習することで、この課題に取り組んできました。
ただし、これらの補助対物レンズと RL 対物レンズの間の調整は、多くの場合不明確です。
この研究では、潜在空間モデルとポリシーを共同で最適化し、自己一貫性を保ちながら高い収益を達成する単一の目標を提案します。
この目標は、期待収益の下限です。
ポリシー探索またはモデル保証に関するモデルベースの RL の以前の限界とは異なり、私たちの限界は全体的な RL 目標に直接設定されます。
結果として得られるアルゴリズムが、従来の最良のモデルベースおよびモデルフリー RL 法のサンプル効率と一致または向上することを実証します。
サンプル効率の良い方法は通常、計算量が多くなりますが、私たちの方法は約 50% 少ない実時間で SAC のパフォーマンスを達成します。
要約(オリジナル)
While reinforcement learning (RL) methods that learn an internal model of the environment have the potential to be more sample efficient than their model-free counterparts, learning to model raw observations from high dimensional sensors can be challenging. Prior work has addressed this challenge by learning low-dimensional representation of observations through auxiliary objectives, such as reconstruction or value prediction. However, the alignment between these auxiliary objectives and the RL objective is often unclear. In this work, we propose a single objective which jointly optimizes a latent-space model and policy to achieve high returns while remaining self-consistent. This objective is a lower bound on expected returns. Unlike prior bounds for model-based RL on policy exploration or model guarantees, our bound is directly on the overall RL objective. We demonstrate that the resulting algorithm matches or improves the sample-efficiency of the best prior model-based and model-free RL methods. While sample efficient methods typically are computationally demanding, our method attains the performance of SAC in about 50% less wall-clock time.
arxiv情報
著者 | Raj Ghugare,Homanga Bharadhwaj,Benjamin Eysenbach,Sergey Levine,Ruslan Salakhutdinov |
発行日 | 2023-06-24 19:05:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google