要約
特に強化学習 (RL) と深層強化学習 (DRL) は、世界との関わり方を破壊する可能性を秘めており、すでに変化しつつあります。
それらの適用性を示す重要な指標の 1 つは、現実世界のシナリオ、つまり大規模な問題で拡張して機能する能力です。
この規模は、大量のデータと計算リソースを利用するアルゴリズムの能力、実行可能なソリューション (つまりポリシー) に向けた環境の効率的な探索といった要素の組み合わせによって達成できます。
この研究では、深層強化学習のいくつかの理論的基盤を調査し、動機付けします。
私たちは正確な動的プログラミングから始めて、最新の強化学習の理論的基礎を形成するモデルフリー シナリオの確率的近似と確率的近似に進みます。
私たちは、近似動的計画法の観点から、この非常に多様で急速に変化する分野の概要を紹介します。
次に、深層強化学習の基礎となるアプローチ (DQN、DDQN、A2C) の探索に関する欠点に焦点を当てて研究します。
理論面では、私たちの主な貢献は、新しいベイジアン アクター批評家アルゴリズムの提案です。
経験的側面では、標準ベンチマークおよび最先端の評価スイートでベイジアン探索およびアクタークリティカル アルゴリズムを評価し、現在の最先端の深層分析に対するこれら両方のアプローチの利点を示します。
RLメソッド。
私たちはすべての実装をリリースし、インストールが簡単な完全な Python ライブラリを提供します。これは強化学習コミュニティに有意義な方法で貢献し、将来の作業のための強力な基盤となることを期待しています。
要約(オリジナル)
Reinforcement learning (RL) and Deep Reinforcement Learning (DRL), in particular, have the potential to disrupt and are already changing the way we interact with the world. One of the key indicators of their applicability is their ability to scale and work in real-world scenarios, that is in large-scale problems. This scale can be achieved via a combination of factors, the algorithm’s ability to make use of large amounts of data and computational resources and the efficient exploration of the environment for viable solutions (i.e. policies). In this work, we investigate and motivate some theoretical foundations for deep reinforcement learning. We start with exact dynamic programming and work our way up to stochastic approximations and stochastic approximations for a model-free scenario, which forms the theoretical basis of modern reinforcement learning. We present an overview of this highly varied and rapidly changing field from the perspective of Approximate Dynamic Programming. We then focus our study on the short-comings with respect to exploration of the cornerstone approaches (i.e. DQN, DDQN, A2C) in deep reinforcement learning. On the theory side, our main contribution is the proposal of a novel Bayesian actor-critic algorithm. On the empirical side, we evaluate Bayesian exploration as well as actor-critic algorithms on standard benchmarks as well as state-of-the-art evaluation suites and show the benefits of both of these approaches over current state-of-the-art deep RL methods. We release all the implementations and provide a full python library that is easy to install and hopefully will serve the reinforcement learning community in a meaningful way, and provide a strong foundation for future work.
arxiv情報
著者 | Nikolai Rozanov |
発行日 | 2024-08-19 14:50:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google