要約
この論文では、確率ネットワーク、キューイング システム、統計力学のマルコフ決定プロセス (MDP) から一般的に得られる一種の定常分布を利用する、モデルベースの強化学習 (RL) のためのポリシー勾配法を紹介します。
具体的には、MDP の定常分布が政策パラメータによってパラメータ化される指数関数族に属する場合、平均報酬 RL に対する既存の政策勾配法を改善できます。
私たちの重要な識別点は、スコア認識勾配推定器 (SAGE) と呼ばれる勾配推定器のファミリーです。これにより、前述の設定で値関数近似に依存せずにポリシー勾配推定が可能になります。
これは、アクタークリティカル手法などの他の一般的なポリシー勾配アルゴリズムとは対照的です。
まず、目的関数が非凸で、複数のマキシマイザが存在し、MDP の状態空間が有限ではない場合を含め、SAGE によるポリシー勾配が局所的に収束することを示します。
マキシマイザーに十分近い値で開始するなどの適切な仮定の下では、SAGE を使用した確率的勾配上昇下のポリシーは、関連する最適なポリシーに収束する圧倒的な確率を持ちます。
その他の重要な仮定は、局所的なリアプノフ関数が存在し、目的関数のヘッセ行列の非縮退特性がマキシマイザーの周囲で局所的に保持されるということです。
さらに、SAGE ベースのポリシー勾配法とアクタークリティカル法の間で数値比較を行います。
特に、パラメータ化可能な指数族が一般的である統計物理学から派生した確率的ネットワーク、キュー システム、モデルからインスピレーションを得たいくつかの例に焦点を当てます。
私たちの結果は、SAGE ベースの手法の方が、アクタークリティカルな手法よりも最適に近いポリシーを迅速に見つけることができることを示しています。
要約(オリジナル)
In this paper, we introduce a policy-gradient method for model-based reinforcement learning (RL) that exploits a type of stationary distributions commonly obtained from Markov decision processes (MDPs) in stochastic networks, queueing systems, and statistical mechanics. Specifically, when the stationary distribution of the MDP belongs to an exponential family that is parametrized by policy parameters, we can improve existing policy gradient methods for average-reward RL. Our key identification is a family of gradient estimators, called score-aware gradient estimators (SAGEs), that enable policy gradient estimation without relying on value-function approximation in the aforementioned setting. This contrasts with other common policy-gradient algorithms such as actor-critic methods. We first show that policy-gradient with SAGE locally converges, including in cases when the objective function is nonconvex, presents multiple maximizers, and the state space of the MDP is not finite. Under appropriate assumptions such as starting sufficiently close to a maximizer, the policy under stochastic gradient ascent with SAGE has an overwhelming probability of converging to the associated optimal policy. Other key assumptions are that a local Lyapunov function exists, and a nondegeneracy property of the Hessian of the objective function holds locally around a maximizer. Furthermore, we conduct a numerical comparison between a SAGE-based policy-gradient method and an actor-critic method. We specifically focus on several examples inspired from stochastic networks, queueing systems, and models derived from statistical physics, where parametrizable exponential families are commonplace. Our results demonstrate that a SAGE-based method finds close-to-optimal policies faster than an actor-critic method.
arxiv情報
著者 | Céline Comte,Matthieu Jonckheere,Jaron Sanders,Albert Senen-Cerda |
発行日 | 2024-06-14 16:10:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google