Matryoshka Policy Gradient for Entropy-Regularized RL: Convergence and Global Optimality

要約

Matryoshka Policy Gradient (MPG) と呼ばれる新しい Policy Gradient (PG) アルゴリズムが導入され、エージェントが累積報酬に加えてエントロピー ボーナスを最大化することを目的とする最大エントロピー強化学習のコンテキストで研究されます。
MPG は、単一の標準目標に対する単一のポリシーではなく、一連のポリシーをトレーニングして、有限期間のタスクを同時に学習するという点で、標準の PG とは異なります。
ソフトマックス ポリシーの場合、MPG 目標の唯一の臨界点が最適なポリシーであることを示すことにより、MPG の収束と極限の全体的な最適性を証明します。
これらの結果は、連続コンパクト状態空間の場合でも当てはまります。
MPG は直感的で、理論的にも健全であり、さらに、標準の最大エントロピー目標の最適ポリシーは、MPG フレームワークの最適ポリシーによって任意に適切に近似できることを示しています。
最後に、ポリシーがニューラル ネットワークでパラメーター化されている場合に MPG が適切であることを正当化し、収束時のポリシーのグローバルな最適性を検証するための簡単な基準を提供します。
概念実証として、標準テスト ベンチマークで MPG を数値的に評価します。

要約(オリジナル)

A novel Policy Gradient (PG) algorithm, called Matryoshka Policy Gradient (MPG), is introduced and studied, in the context of max-entropy reinforcement learning, where an agent aims at maximising entropy bonuses additional to its cumulative rewards. MPG differs from standard PG in that it trains a sequence of policies to learn finite horizon tasks simultaneously, instead of a single policy for the single standard objective. For softmax policies, we prove convergence of MPG and global optimality of the limit by showing that the only critical point of the MPG objective is the optimal policy; these results hold true even in the case of continuous compact state space. MPG is intuitive, theoretically sound and we furthermore show that the optimal policy of the standard max-entropy objective can be approximated arbitrarily well by the optimal policy of the MPG framework. Finally, we justify that MPG is well suited when the policies are parametrized with neural networks and we provide an simple criterion to verify the global optimality of the policy at convergence. As a proof of concept, we evaluate numerically MPG on standard test benchmarks.

arxiv情報

著者 François Ged,Maria Han Veiga
発行日 2023-03-22 17:56:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.LG, I.2.0 パーマリンク