Rethinking Model-based, Policy-based, and Value-based Reinforcement Learning via the Lens of Representation Complexity

要約

強化学習 (RL) には、モデルベースの RL、ポリシーベースの RL、値ベースの RL などの多様なパラダイムが含まれており、それぞれモデル、最適ポリシー、最適値関数を近似するように調整されています。
この研究では、これらの RL パラダイム間の表現の複雑さ (表現される関数の複雑さ) の潜在的な階層を調査します。
まず、広範なクラスのマルコフ決定プロセス (MDP) について、モデルが多項式サイズの定深度回路、または定数層と多項式隠れ次元を持つ多層パーセプトロン (MLP) によって表現できることを示します。
ただし、最適なポリシーと最適な値の表現は $\mathsf{NP}$ 完全であり、多項式サイズの定層 MLP では達成できないことがわかります。
これは、モデルベースの RL と、ポリシーベースの RL と値ベースの RL を含むモデルフリー RL との間に、表現の複雑さの大きなギャップがあることを示しています。
ポリシーベースの RL と値ベースの RL の間の表現の複雑さの階層をさらに調査するために、モデルと最適なポリシーの両方を多項式サイズの定深度回路または多項式の定層 MLP で表現できる別の一般的なクラスの MDP を導入します。
サイズ。
対照的に、最適値を表現することは $\mathsf{P}$-complete であり、多項式隠れ次元を持つ定層 MLP を介して行うのは困難です。
これにより、ポリシーベースの RL と比較して、値ベースの RL に関連する複雑な表現の複雑さが強調されます。
要約すると、RL 内の潜在的な表現の複雑さの階層を明らかにします。モデルの表現が最も簡単なタスクとして浮上し、その後に最適なポリシーが続きますが、最適値関数の表現には最も複雑な課題が伴います。

要約(オリジナル)

Reinforcement Learning (RL) encompasses diverse paradigms, including model-based RL, policy-based RL, and value-based RL, each tailored to approximate the model, optimal policy, and optimal value function, respectively. This work investigates the potential hierarchy of representation complexity — the complexity of functions to be represented — among these RL paradigms. We first demonstrate that, for a broad class of Markov decision processes (MDPs), the model can be represented by constant-depth circuits with polynomial size or Multi-Layer Perceptrons (MLPs) with constant layers and polynomial hidden dimension. However, the representation of the optimal policy and optimal value proves to be $\mathsf{NP}$-complete and unattainable by constant-layer MLPs with polynomial size. This demonstrates a significant representation complexity gap between model-based RL and model-free RL, which includes policy-based RL and value-based RL. To further explore the representation complexity hierarchy between policy-based RL and value-based RL, we introduce another general class of MDPs where both the model and optimal policy can be represented by constant-depth circuits with polynomial size or constant-layer MLPs with polynomial size. In contrast, representing the optimal value is $\mathsf{P}$-complete and intractable via a constant-layer MLP with polynomial hidden dimension. This accentuates the intricate representation complexity associated with value-based RL compared to policy-based RL. In summary, we unveil a potential representation complexity hierarchy within RL — representing the model emerges as the easiest task, followed by the optimal policy, while representing the optimal value function presents the most intricate challenge.

arxiv情報

著者 Guhao Feng,Han Zhong
発行日 2023-12-28 18:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC, cs.LG, stat.ML パーマリンク