Minimax-Bayes Reinforcement Learning

要約

ベイジアン意思決定理論のフレームワークは、不確実性の下での意思決定の問題に対する洗練された解決策を提供しますが、1 つの問題は事前分布を適切に選択する方法です。
1 つのアイデアは、最悪の事前確率を採用することです。
ただし、これは、単純な統計的推定問題のように逐次的な意思決定で指定するのは簡単ではありません。
この論文では、さまざまな強化学習問題の (場合によっては概算の) ミニマックス ベイズ ソリューションを研究して、対応する事前確率とポリシーのプロパティに関する洞察を得ます。
最悪の場合の事前確率は設定によって異なりますが、対応するミニマックス ポリシーは、標準的な (つまり一様な) 事前確率を想定するポリシーよりも堅牢であることがわかります。

要約(オリジナル)

While the Bayesian decision-theoretic framework offers an elegant solution to the problem of decision making under uncertainty, one question is how to appropriately select the prior distribution. One idea is to employ a worst-case prior. However, this is not as easy to specify in sequential decision making as in simple statistical estimation problems. This paper studies (sometimes approximate) minimax-Bayes solutions for various reinforcement learning problems to gain insights into the properties of the corresponding priors and policies. We find that while the worst-case prior depends on the setting, the corresponding minimax policies are more robust than those that assume a standard (i.e. uniform) prior.

arxiv情報

著者 Thomas Kleine Buening,Christos Dimitrakakis,Hannes Eriksson,Divya Grover,Emilio Jorge
発行日 2023-02-21 17:10:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク