要約
分位点回帰を使用した分布強化学習の適用に成功すると、自然な疑問が生じます。収益の分布を表すために他の統計を使用できるか?
特に、期待値回帰は、分布、特に極値の近似において分位点回帰よりも効率的であることが知られており、平均値の直接的な推定量を提供するため、強化学習の自然な候補となります。
これまでの研究では、収束を確実にするために高価な計算を実行する必要があるという大きな注意を伴いながら、予期せぬものの場合、この質問に肯定的に答えています。
この研究では、期待値と分位値の補完的な特性を活用しながら、以前の研究の欠点を解決する二重期待値-分位値アプローチを提案します。
私たちの方法は、MuJoCo 連続制御ベンチマークで分位ベースと期待値ベースのベースラインの両方を上回っています。
要約(オリジナル)
Successful applications of distributional reinforcement learning with quantile regression prompt a natural question: can we use other statistics to represent the distribution of returns? In particular, expectile regression is known to be more efficient than quantile regression for approximating distributions, especially on extreme values, and by providing a straightforward estimator of the mean it is a natural candidate for reinforcement learning. Prior work has answered this question positively in the case of expectiles, with the major caveat that expensive computations must be performed to ensure convergence. In this work, we propose a dual expectile-quantile approach which solves the shortcomings of previous work while leveraging the complementary properties of expectiles and quantiles. Our method outperforms both quantile-based and expectile-based baselines on the MuJoCo continuous control benchmark.
arxiv情報
著者 | Sami Jullien,Romain Deffayet,Jean-Michel Renders,Paul Groth,Maarten de Rijke |
発行日 | 2023-05-26 12:30:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google