要約
タイトル:深層強化学習のための事後サンプリング
要約:
– 深層強化学習アルゴリズムは、優れた成果にもかかわらず、サンプル効率が低い。
– モデルベースのアルゴリズムは、計画に使用できる環境モデルを構築することにより、サンプル効率を改善する可能性がある。
– Reinforcement Learningのための事後サンプリングは、そのタブラー設定でのパフォーマンスにより重要な関心が集まっているモデルベースのアルゴリズムである。
– この論文は、Posterior Sampling for Deep Reinforcement Learning (PSDRL)を紹介している。これは、モデルベースの本質を保持しながら、事後サンプリングの真にスケーラブルな近似を実現した初めてのアルゴリズムである。
– PSDRLは、潜在的な状態空間モデルに対する効率的な不確実性の定量化と、価値関数の近似に基づく特別に調整された持続的な計画アルゴリズムを組み合わせている。
– Atariベンチマーク上の広範な実験により、PSDRLは、事後サンプリングを拡大する以前の状態-of-the-art試みよりも遥かに優れたパフォーマンスを発揮し、(モデルベースの)強化学習方法と、標本効率と計算効率の両方で競合力を持っていることが示された。
要約(オリジナル)
Despite remarkable successes, deep reinforcement learning algorithms remain sample inefficient: they require an enormous amount of trial and error to find good policies. Model-based algorithms promise sample efficiency by building an environment model that can be used for planning. Posterior Sampling for Reinforcement Learning is such a model-based algorithm that has attracted significant interest due to its performance in the tabular setting. This paper introduces Posterior Sampling for Deep Reinforcement Learning (PSDRL), the first truly scalable approximation of Posterior Sampling for Reinforcement Learning that retains its model-based essence. PSDRL combines efficient uncertainty quantification over latent state space models with a specially tailored continual planning algorithm based on value-function approximation. Extensive experiments on the Atari benchmark show that PSDRL significantly outperforms previous state-of-the-art attempts at scaling up posterior sampling while being competitive with a state-of-the-art (model-based) reinforcement learning method, both in sample efficiency and computational efficiency.
arxiv情報
著者 | Remo Sasso,Michelangelo Conserva,Paulo Rauber |
発行日 | 2023-04-30 13:23:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI