Uniformly Conservative Exploration in Reinforcement Learning

要約

実際に強化学習を展開する上での重要な課題は、個々のエピソードで過度の (有害な) 探索を避けることです。
探索に対する自然な制約を提案します — \textit{uniformly} 控えめなポリシー (これまでに観測されたすべてのデータから適応的に推定) よりもパフォーマンスが高く、エピソードごとの探索予算まで。
探索にUCB強化学習ポリシーを使用する新しいアルゴリズムを設計しますが、必要に応じてオーバーライドして、探索の制約を高い確率で満たします。
重要なことは、状態空間全体で偏りのない探索を確実にするために、アルゴリズムが探索するタイミングを適応的に決定することです。
表形式の設定で後悔を最小限に抑えながら、アプローチが保守的であることを証明します。
敗血症治療タスクと HIV 治療タスクの結果を実験的に検証し、すべての患者のベースライン ポリシーと比較して優れたパフォーマンスを確保しながら、アルゴリズムが学習できることを示しています。
後者のタスクは、私たちのアプローチが深層強化学習を介して連続状態空間に拡張されることも示しています。

要約(オリジナル)

A key challenge to deploying reinforcement learning in practice is avoiding excessive (harmful) exploration in individual episodes. We propose a natural constraint on exploration — \textit{uniformly} outperforming a conservative policy (adaptively estimated from all data observed thus far), up to a per-episode exploration budget. We design a novel algorithm that uses a UCB reinforcement learning policy for exploration, but overrides it as needed to satisfy our exploration constraint with high probability. Importantly, to ensure unbiased exploration across the state space, our algorithm adaptively determines when to explore. We prove that our approach remains conservative while minimizing regret in the tabular setting. We experimentally validate our results on a sepsis treatment task and an HIV treatment task, demonstrating that our algorithm can learn while ensuring good performance compared to the baseline policy for every patient; the latter task also demonstrates that our approach extends to continuous state spaces via deep reinforcement learning.

arxiv情報

著者 Wanqiao Xu,Jason Yecheng Ma,Kan Xu,Hamsa Bastani,Osbert Bastani
発行日 2023-02-24 18:09:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク