Bridging RL Theory and Practice with the Effective Horizon

要約

タイトル:効果的なホライズンによるRL理論と実践の橋渡し

要約:

– RL理論は、一部の環境では印象的な成果を収めている一方、他の環境では惨敗することがあるが、現在の理論はなぜこうなるのかを理解することができない。
– BRIDGEという新しいデータセットを導入し、155 MDPを含む一般的なDeep RLベンチマークから得られた、対応する表形式を使用して、インスタンス依存の境界を正確に計算する。
– 先行事例によると、標準のDeep RLアルゴリズムは、先行事例による制約と比較して相関関係がないことがわかったが、Q値が最適ポリシーでの最高値である行動がランダムポリシーでの最高値と一致する場合、Deep RLが成功しやすいことがわかった。
– さらに、MDPにおける新しい複雑度尺度であるEffectie Horizonに一般化し、次に最適なアクションを識別するために必要な見通し探索のステップ数にほぼ対応すると説明した。
– BRIDGEを使用して、PPOおよびDQNの実証パフォーマンスを先行事例による制約よりも反映することができることを示した。
– さらに、効果的なホライズンは、既存の制約とは異なり、報酬形成または既存の探索ポリシーの使用の効果を予測することができる。

要約(オリジナル)

Deep reinforcement learning (RL) works impressively in some environments and fails catastrophically in others. Ideally, RL theory should be able to provide an understanding of why this is, i.e. bounds predictive of practical performance. Unfortunately, current theory does not quite have this ability. We compare standard deep RL algorithms to prior sample complexity prior bounds by introducing a new dataset, BRIDGE. It consists of 155 MDPs from common deep RL benchmarks, along with their corresponding tabular representations, which enables us to exactly compute instance-dependent bounds. We find that prior bounds do not correlate well with when deep RL succeeds vs. fails, but discover a surprising property that does. When actions with the highest Q-values under the random policy also have the highest Q-values under the optimal policy, deep RL tends to succeed; when they don’t, deep RL tends to fail. We generalize this property into a new complexity measure of an MDP that we call the effective horizon, which roughly corresponds to how many steps of lookahead search are needed in order to identify the next optimal action when leaf nodes are evaluated with random rollouts. Using BRIDGE, we show that the effective horizon-based bounds are more closely reflective of the empirical performance of PPO and DQN than prior sample complexity bounds across four metrics. We also show that, unlike existing bounds, the effective horizon can predict the effects of using reward shaping or a pre-trained exploration policy.

arxiv情報

著者 Cassidy Laidlaw,Stuart Russell,Anca Dragan
発行日 2023-04-19 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク