要約
深層潜在変数モデルは、複雑な遷移ダイナミクスのモデル化における表現力により、モデルベースの強化学習 (RL) で大きな経験的成功を収めています。
一方で、潜在変数モデルがどのように学習、計画、探索を促進して強化学習のサンプル効率を向上させるのかは、理論的および経験的に不明なままです。
この論文では、状態-行動値関数の潜在変数モデルの表現ビューを提供します。これにより、扱いやすい変分学習アルゴリズムと、探索の不確実性に直面した楽観主義/悲観主義の原則の効果的な実装の両方が可能になります。
特に、潜在変数モデルのカーネル埋め込みを組み込むことにより、UCB 探索を使用した計算効率の高い計画アルゴリズムを提案します。
理論的には、オンラインとオフラインの設定で提案されたアプローチのサンプルの複雑さを確立します。
経験的に、さまざまなベンチマークで現在の最先端のアルゴリズムよりも優れたパフォーマンスを示しています。
要約(オリジナル)
Deep latent variable models have achieved significant empirical successes in model-based reinforcement learning (RL) due to their expressiveness in modeling complex transition dynamics. On the other hand, it remains unclear theoretically and empirically how latent variable models may facilitate learning, planning, and exploration to improve the sample efficiency of RL. In this paper, we provide a representation view of the latent variable models for state-action value functions, which allows both tractable variational learning algorithm and effective implementation of the optimism/pessimism principle in the face of uncertainty for exploration. In particular, we propose a computationally efficient planning algorithm with UCB exploration by incorporating kernel embeddings of latent variable models. Theoretically, we establish the sample complexity of the proposed approach in the online and offline settings. Empirically, we demonstrate superior performance over current state-of-the-art algorithms across various benchmarks.
arxiv情報
著者 | Tongzheng Ren,Chenjun Xiao,Tianjun Zhang,Na Li,Zhaoran Wang,Sujay Sanghavi,Dale Schuurmans,Bo Dai |
発行日 | 2023-03-07 16:28:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google