Beyond Stationarity: Convergence Analysis of Stochastic Softmax Policy Gradient Methods

要約

マルコフ決定過程(MDP)は、逐次的な意思決定問題をモデル化し解くための公式な枠組みである。有限時間地平では、このような問題は、例えば最適停止や特定のサプライチェーン問題に関連するが、大規模な言語モデルの学習にも関連する。無限地平のMDPとは対照的に、最適な方針は定常ではなく、方針は1つのエポックごとに学習されなければならない。実際には、動的計画法が示唆する固有の構造を無視して、全てのパラメータが同時に学習されることが多い。本稿では、動的政策勾配と呼ばれる動的計画法と政策勾配の組み合わせを紹介する。表形式のソフトマックスパラメータに対して、正則化なしの厳密勾配と標本化勾配の両方で、大域的最適値への同時勾配と動的政策勾配の収束分析を行う。その結果、動的政策勾配学習は有限時間問題の構造をより良く利用することがわかり、それは収束境界の改善に反映されている。

要約(オリジナル)

Markov Decision Processes (MDPs) are a formal framework for modeling and solving sequential decision-making problems. In finite-time horizons such problems are relevant for instance for optimal stopping or specific supply chain problems, but also in the training of large language models. In contrast to infinite horizon MDPs optimal policies are not stationary, policies must be learned for every single epoch. In practice all parameters are often trained simultaneously, ignoring the inherent structure suggested by dynamic programming. This paper introduces a combination of dynamic programming and policy gradient called dynamic policy gradient, where the parameters are trained backwards in time. For the tabular softmax parametrisation we carry out the convergence analysis for simultaneous and dynamic policy gradient towards global optima, both in the exact and sampled gradient settings without regularisation. It turns out that the use of dynamic policy gradient training much better exploits the structure of finite- time problems which is reflected in improved convergence bounds.

arxiv情報

著者 Sara Klein,Simon Weissmann,Leif Döring
発行日 2024-05-06 16:29:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク