要約
強化学習で効率的に探索する方法は未解決の問題です。
多くの探索アルゴリズムは、独自の値予測の認識論的不確実性を採用しています。たとえば、探索ボーナスや上限信頼限界を計算します。
残念ながら、必要な不確実性は、一般に関数近似で見積もることが困難です。
認識値推定 (EVE) を提案します。これは、逐次的意思決定およびニューラル ネットワーク関数近似と互換性のあるレシピです。
それは、認識値の不確実性を効率的に計算できるすべてのパラメーターにわたって扱いやすい事後分布をエージェントに提供します。
このレシピを使用して認識論的 Q ラーニング エージェントを導き出し、一連のベンチマークで競合パフォーマンスを観察します。
実験では、EVE レシピが難しい探査タスクでの効率的な探査を促進することが確認されています。
要約(オリジナル)
How to efficiently explore in reinforcement learning is an open problem. Many exploration algorithms employ the epistemic uncertainty of their own value predictions — for instance to compute an exploration bonus or upper confidence bound. Unfortunately the required uncertainty is difficult to estimate in general with function approximation. We propose epistemic value estimation (EVE): a recipe that is compatible with sequential decision making and with neural network function approximators. It equips agents with a tractable posterior over all their parameters from which epistemic value uncertainty can be computed efficiently. We use the recipe to derive an epistemic Q-Learning agent and observe competitive performance on a series of benchmarks. Experiments confirm that the EVE recipe facilitates efficient exploration in hard exploration tasks.
arxiv情報
著者 | Simon Schmitt,John Shawe-Taylor,Hado van Hasselt |
発行日 | 2023-03-07 16:25:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google