Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems

要約

確率的ネットワークとキュー システムは、多くの場合、大きな状態空間とアクション空間、および非凸目的関数を備えたマルコフ決定プロセス (MDP) につながり、多くの強化学習 (RL) アルゴリズムの収束を妨げます。
ポリシー勾配法は、状態空間とアクション空間が大きい MDP では良好に機能しますが、勾配推定量の分散が大きいため、収束が遅くなることがあります。
この論文では、基礎となる MDP の構造を利用することで、これらの問題の一部を回避できることを示します。
まず、スコア認識勾配推定器 (SAGE) と呼ばれる新しい勾配推定器ファミリーを導入します。
MDP の定常分布が政策パラメータによってパラメータ化された指数関数族に属する場合、アクタークリティックなどの古典的な政策勾配手法とは対照的に、SAGE を使用すると、価値関数推定に依存せずに政策勾配を推定できます。
それらの適用可能性を実証するために、定常分布が積の形式、つまり指数関数族の特殊なケースを持つ確率的ネットワークとキュー システムで発生する 2 つの一般的な制御問題を調べます。
2 番目の貢献として、適切な仮定の下で、SAGE ベースのポリシー勾配法に基づくポリシーは、非凸の目的関数であっても、最適なポリシーに十分近い値から開始する限り、最適なポリシーに収束する可能性が高いことを示します。
そして複数のマキシマイザー。
私たちの重要な仮定は、マキシマイザーの周囲で局所的に目的関数のヘッセ行列の非縮退特性が保持され、リアプノフ関数が存在するということです。
最後に、SAGE ベースのポリシー勾配法とアクタークリティカル アルゴリズムの間の数値比較を実行します。
この結果は、SAGE ベースの手法が最適に近いポリシーをより迅速に見つけ出すことを示しており、従来のアクタークリティカル手法よりもパフォーマンスが優れていることが強調されています。

要約(オリジナル)

Stochastic networks and queueing systems often lead to Markov decision processes (MDPs) with large state and action spaces as well as nonconvex objective functions, which hinders the convergence of many reinforcement learning (RL) algorithms. Policy-gradient methods perform well on MDPs with large state and action spaces, but they sometimes experience slow convergence due to the high variance of the gradient estimator. In this paper, we show that some of these difficulties can be circumvented by exploiting the structure of the underlying MDP. We first introduce a new family of gradient estimators called score-aware gradient estimators (SAGEs). When the stationary distribution of the MDP belongs to an exponential family parametrized by the policy parameters, SAGEs allow us to estimate the policy gradient without relying on value-function estimation, contrary to classical policy-gradient methods like actor-critic. To demonstrate their applicability, we examine two common control problems arising in stochastic networks and queueing systems whose stationary distributions have a product-form, a special case of exponential families. As a second contribution, we show that, under appropriate assumptions, the policy under a SAGE-based policy-gradient method has a large probability of converging to an optimal policy, provided that it starts sufficiently close to it, even with a nonconvex objective function and multiple maximizers. Our key assumptions are that, locally around a maximizer, a nondegeneracy property of the Hessian of the objective function holds and a Lyapunov function exists. Finally, we conduct a numerical comparison between a SAGE-based policy-gradient method and an actor-critic algorithm. The results demonstrate that the SAGE-based method finds close-to-optimal policies more rapidly, highlighting its superior performance over the traditional actor-critic method.

arxiv情報

著者 Céline Comte,Matthieu Jonckheere,Jaron Sanders,Albert Senen-Cerda
発行日 2023-12-05 14:44:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.PF, math.OC, math.PR パーマリンク