要約
タイトル:カーネル化されたスタインの不一致性によるモデルベースの強化学習のための事後コアセット構築
要約:
– モデルベースの強化学習(MBRL)は、実践では優れた性能を発揮するが、大規模な空間において理論的な保証は、遷移モデルがガウス分布またはリプシッツである場合に制限され、時間とともに表現の複雑さが増大する事後推定値が必要とされる。
– 本研究では、(i) 目標遷移モデルが一般の混合モデルのファミリーに属することを仮定を緩和する新しいMBRL方法を開発し、(ii) 事後推定値は、統計的に有意な過去の状態-アクションの組み合わせのBayesian coresetだけで構成されるため、大規模なトレーニングに適用可能となる。また、(iii) サブ線形のBayesian regretの実現も目指す。
– これらの結果を実現するために、構築された事後分布と目標分布にスムーズ条件を課し、スタインの方法に基づくアプローチを採用し、分布距離をカーネル化されたスタインの不一致性(KSD)として閉形式で評価する。
– この圧縮ステップは、前回のモデル推定から一定のKSD以上離れたサンプルのみを貪欲に保持することで計算される。実験的に、このアプローチはいくつかの最新のRL方法と競合し、一部の連続制御環境で50%までのウォールクロック時間の短縮を達成することが観察された。
要約(オリジナル)
Model-based approaches to reinforcement learning (MBRL) exhibit favorable performance in practice, but their theoretical guarantees in large spaces are mostly restricted to the setting when transition model is Gaussian or Lipschitz, and demands a posterior estimate whose representational complexity grows unbounded with time. In this work, we develop a novel MBRL method (i) which relaxes the assumptions on the target transition model to belong to a generic family of mixture models; (ii) is applicable to large-scale training by incorporating a compression step such that the posterior estimate consists of a Bayesian coreset of only statistically significant past state-action pairs; and (iii) exhibits a sublinear Bayesian regret. To achieve these results, we adopt an approach based upon Stein’s method, which, under a smoothness condition on the constructed posterior and target, allows distributional distance to be evaluated in closed form as the kernelized Stein discrepancy (KSD). The aforementioned compression step is then computed in terms of greedily retaining only those samples which are more than a certain KSD away from the previous model estimate. Experimentally, we observe that this approach is competitive with several state-of-the-art RL methodologies, and can achieve up-to 50 percent reduction in wall clock time in some continuous control environments.
arxiv情報
| 著者 | Souradip Chakraborty,Amrit Singh Bedi,Alec Koppel,Brian M. Sadler,Furong Huang,Pratap Tokekar,Dinesh Manocha |
| 発行日 | 2023-05-04 05:25:56+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI