要約
強化学習 (RL) 理論は主に、サンプルの複雑さの最小限界を証明することに焦点を当ててきました。
これらには、ポリシーまたは価値関数を表すために比較的限定された関数クラスを使用する戦略的探索アルゴリズムが必要です。
私たちの目標は、ランダム探索やニューラル ネットワークのようなより表現力豊かな関数クラスを使用しているにもかかわらず、ディープ RL アルゴリズムが実際に優れたパフォーマンスを発揮することが多い理由を説明することです。
私たちの研究は、ランダム ポリシーの Q 関数に対してわずか数ステップの値の反復を実行し、その後貪欲に動作することによって、多くの確率的 MDP を解決できることを示すことで説明に到達しました。
これが真実であれば、RL の探索コンポーネントと学習コンポーネントを分離することが可能であり、分析がはるかに容易になることがわかります。
新しい RL アルゴリズムである SQIRL を導入します。これは、ランダムに探索してロールアウトを収集し、それらのロールアウトに対して限られた数の Fit-Q 反復ステップを実行することで、最適に近いポリシーを反復的に学習します。
基本的な分布内一般化特性を満たす回帰アルゴリズムを SQIRL で使用して、一般的な MDP を効率的に解決できます。
これは、ニューラル ネットワークが分布内で適切に一般化することが経験的に確立されているため、ディープ RL がニューラル ネットワークに機能する理由を説明できます。
さらに、SQIRL は、ランダム ポリシーの Q 関数を推定し、ゼロまたは数ステップの値の反復を適用することで多くの環境を解決できることを示しているため、ランダム探索が実際にうまく機能する理由を説明しています。
SQIRL を利用して、先読みの「有効範囲」内および関数近似に使用されるクラスの複雑さにおいてのみ指数関数的な RL のインスタンス依存のサンプル複雑さの限界を導き出します。
また、経験的に、SQIRL のパフォーマンスがさまざまな確率的環境における PPO および DQN のパフォーマンスと強い相関関係があることもわかり、理論的な分析が実際のパフォーマンスを予測できることが裏付けられています。
要約(オリジナル)
Reinforcement learning (RL) theory has largely focused on proving minimax sample complexity bounds. These require strategic exploration algorithms that use relatively limited function classes for representing the policy or value function. Our goal is to explain why deep RL algorithms often perform well in practice, despite using random exploration and much more expressive function classes like neural networks. Our work arrives at an explanation by showing that many stochastic MDPs can be solved by performing only a few steps of value iteration on the random policy’s Q function and then acting greedily. When this is true, we find that it is possible to separate the exploration and learning components of RL, making it much easier to analyze. We introduce a new RL algorithm, SQIRL, that iteratively learns a near-optimal policy by exploring randomly to collect rollouts and then performing a limited number of steps of fitted-Q iteration over those rollouts. Any regression algorithm that satisfies basic in-distribution generalization properties can be used in SQIRL to efficiently solve common MDPs. This can explain why deep RL works neural networks, since it is empirically established that neural networks generalize well in-distribution. Furthermore, SQIRL explains why random exploration works well in practice, since we show many environments can be solved by estimating the random policy’s Q-function and then applying zero or a few steps of value iteration. We leverage SQIRL to derive instance-dependent sample complexity bounds for RL that are exponential only in an ‘effective horizon’ of lookahead and on the complexity of the class used for function approximation. Empirically, we also find that SQIRL performance strongly correlates with PPO and DQN performance in a variety of stochastic environments, supporting that our theoretical analysis is predictive of practical performance.
arxiv情報
著者 | Cassidy Laidlaw,Banghua Zhu,Stuart Russell,Anca Dragan |
発行日 | 2023-12-13 18:58:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google