要約
強化学習 (RL) には、モデルベースの RL、ポリシーベースの RL、値ベースの RL などの多様なパラダイムが含まれており、それぞれモデル、最適ポリシー、最適値関数を近似するように調整されています。
この研究では、これらの RL パラダイム間の表現の複雑さ (表現される関数の複雑さ) の潜在的な階層を調査します。
まず、広範なクラスのマルコフ決定プロセス (MDP) について、モデルが多項式サイズの定深度回路、または定数層と多項式隠れ次元を持つ多層パーセプトロン (MLP) によって表現できることを示します。
ただし、最適なポリシーと最適な値の表現は $\mathsf{NP}$ 完全であり、多項式サイズの定層 MLP では達成できないことがわかります。
これは、モデルベースの RL と、ポリシーベースの RL と値ベースの RL を含むモデルフリー RL との間に、表現の複雑さの大きなギャップがあることを示しています。
ポリシーベースの RL と値ベースの RL の間の表現の複雑さの階層をさらに調査するために、モデルと最適なポリシーの両方を多項式サイズの定深度回路または多項式の定層 MLP で表現できる別の一般的なクラスの MDP を導入します。
サイズ。
対照的に、最適値を表現することは $\mathsf{P}$-complete であり、多項式隠れ次元を持つ定層 MLP を介して行うのは困難です。
これにより、ポリシーベースの RL と比較して、値ベースの RL に関連する複雑な表現の複雑さが強調されます。
要約すると、RL 内の潜在的な表現の複雑さの階層を明らかにします。モデルの表現が最も簡単なタスクとして浮上し、その後に最適なポリシーが続きますが、最適値関数の表現には最も複雑な課題が伴います。
要約(オリジナル)
Reinforcement Learning (RL) encompasses diverse paradigms, including model-based RL, policy-based RL, and value-based RL, each tailored to approximate the model, optimal policy, and optimal value function, respectively. This work investigates the potential hierarchy of representation complexity — the complexity of functions to be represented — among these RL paradigms. We first demonstrate that, for a broad class of Markov decision processes (MDPs), the model can be represented by constant-depth circuits with polynomial size or Multi-Layer Perceptrons (MLPs) with constant layers and polynomial hidden dimension. However, the representation of the optimal policy and optimal value proves to be $\mathsf{NP}$-complete and unattainable by constant-layer MLPs with polynomial size. This demonstrates a significant representation complexity gap between model-based RL and model-free RL, which includes policy-based RL and value-based RL. To further explore the representation complexity hierarchy between policy-based RL and value-based RL, we introduce another general class of MDPs where both the model and optimal policy can be represented by constant-depth circuits with polynomial size or constant-layer MLPs with polynomial size. In contrast, representing the optimal value is $\mathsf{P}$-complete and intractable via a constant-layer MLP with polynomial hidden dimension. This accentuates the intricate representation complexity associated with value-based RL compared to policy-based RL. In summary, we unveil a potential representation complexity hierarchy within RL — representing the model emerges as the easiest task, followed by the optimal policy, while representing the optimal value function presents the most intricate challenge.
arxiv情報
著者 | Guhao Feng,Han Zhong |
発行日 | 2023-12-28 18:59:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google