要約
ランダム ネットワーク蒸留 (RND) はさまざまな分野で成功を収めていますが、オフライン強化学習で分布外のアクションにペナルティを与えるための不確実性推定量として使用できるほど差別的ではないことが示されました。
この論文では、これらの結果を再検討し、事前の RND の条件付けの単純な選択では、アクターが反探索ボーナスを効果的に最小限に抑えることが不可能になり、差別性が問題にならないことを示します。
我々は、Feature-wise Linear Modulation (FiLM) に基づく条件付けによってこの制限を回避でき、その結果、Soft Actor-Critic に基づくシンプルで効率的なアンサンブルフリーのアルゴリズムが得られることを示します。
D4RL ベンチマークで評価したところ、アンサンブルベースの手法に匹敵するパフォーマンスを達成でき、アンサンブルを使用しないアプローチを大きく上回るパフォーマンスを達成できることがわかりました。
要約(オリジナル)
Despite the success of Random Network Distillation (RND) in various domains, it was shown as not discriminative enough to be used as an uncertainty estimator for penalizing out-of-distribution actions in offline reinforcement learning. In this paper, we revisit these results and show that, with a naive choice of conditioning for the RND prior, it becomes infeasible for the actor to effectively minimize the anti-exploration bonus and discriminativity is not an issue. We show that this limitation can be avoided with conditioning based on Feature-wise Linear Modulation (FiLM), resulting in a simple and efficient ensemble-free algorithm based on Soft Actor-Critic. We evaluate it on the D4RL benchmark, showing that it is capable of achieving performance comparable to ensemble-based methods and outperforming ensemble-free approaches by a wide margin.
arxiv情報
著者 | Alexander Nikulin,Vladislav Kurenkov,Denis Tarasov,Sergey Kolesnikov |
発行日 | 2023-05-17 12:23:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google