要約
強化学習は多くのアプリケーションで実験的な成功を示していますが、システムのパラメータのノイズや摂動に敏感であることが知られており、わずかに異なる環境の異なるエピソード間で合計報酬に大きなばらつきが生じます。
堅牢性とサンプル効率を導入するために、リスクに敏感な強化学習手法が徹底的に研究されています。
この研究では、ロバストな強化学習ポリシーの定義を提供し、指数基準に基づいて修正された目標に関して最適化問題を解くことによって、それらを近似するリスクに敏感な強化学習問題を定式化します。
特に、広く使用されているモンテカルロ ポリシー勾配アルゴリズムのモデルフリーのリスクに敏感なバリエーションを研究し、確率的近似更新を使用して乗算ベルマン方程式を解くことに基づく、新しいリスクに敏感なオンライン Actor-Critic アルゴリズムを導入します。
分析結果は、指数基準の使用により、一般的に使用されるアドホック正則化アプローチが一般化され、サンプル効率が向上し、モデル パラメーターと環境の摂動に対する堅牢性が導入されることが示唆されています。
提案された方法の実装、パフォーマンス、および堅牢性の特性は、シミュレートされた実験で評価されます。
要約(オリジナル)
While reinforcement learning has shown experimental success in a number of applications, it is known to be sensitive to noise and perturbations in the parameters of the system, leading to high variance in the total reward amongst different episodes in slightly different environments. To introduce robustness, as well as sample efficiency, risk-sensitive reinforcement learning methods are being thoroughly studied. In this work, we provide a definition of robust reinforcement learning policies and formulate a risk-sensitive reinforcement learning problem to approximate them, by solving an optimization problem with respect to a modified objective based on exponential criteria. In particular, we study a model-free risk-sensitive variation of the widely-used Monte Carlo Policy Gradient algorithm and introduce a novel risk-sensitive online Actor-Critic algorithm based on solving a multiplicative Bellman equation using stochastic approximation updates. Analytical results suggest that the use of exponential criteria generalizes commonly used ad-hoc regularization approaches, improves sample efficiency, and introduces robustness with respect to perturbations in the model parameters and the environment. The implementation, performance, and robustness properties of the proposed methods are evaluated in simulated experiments.
arxiv情報
著者 | Erfaun Noorani,Christos Mavridis,John Baras |
発行日 | 2024-11-29 15:12:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google