Regularized Q-Learning with Linear Function Approximation

要約

正則化されたマルコフの決定プロセスは、意思決定者が曖昧さをモデル化するための情報処理能力および/または嫌悪感を制限している不確実性の下での連続的な意思決定のモデルとして機能します。
機能的近似により、正規化されたMDP(ソフトQラーニングなど)の学習アルゴリズムの収束特性は、正規化されたベルマンオペレーターの構成とベクターのスパンへの投影が基準に関して縮小ではないため、よく理解されていません。

この論文では、線形関数近似を備えた正規化されたQ学習の双レベルの最適化定式化を検討します。
{\ em dower}レベルの最適化問題は、Bellmanの再帰最適性条件を満たす値関数近似を識別することを目的としており、{\ em Upper}レベルは、ベクターのスパンへの投影を見つけることを目的としています。
この定式化は、有限の時間収束保証でシングルループアルゴリズムを動機付けます。
アルゴリズムは2つのタイムスケールで動作します。状態アクション値の投影の更新は「遅い」という点で「遅い」という点で、ベルマンの再帰的最適性に対する「より高速」のソリューションの「より速い」更新に使用されるステップサイズよりも小さいという点で実装されています。
方程式。
特定の仮定の下で、提案されたアルゴリズムがマルコフ騒音の存在下で静止点に収束することを示します。
さらに、提案されたアルゴリズムから派生したポリシーのパフォーマンス保証を提供します。

要約(オリジナル)

Regularized Markov Decision Processes serve as models of sequential decision making under uncertainty wherein the decision maker has limited information processing capacity and/or aversion to model ambiguity. With functional approximation, the convergence properties of learning algorithms for regularized MDPs (e.g. soft Q-learning) are not well understood because the composition of the regularized Bellman operator and a projection onto the span of basis vectors is not a contraction with respect to any norm. In this paper, we consider a bi-level optimization formulation of regularized Q-learning with linear functional approximation. The {\em lower} level optimization problem aims to identify a value function approximation that satisfies Bellman’s recursive optimality condition and the {\em upper} level aims to find the projection onto the span of basis vectors. This formulation motivates a single-loop algorithm with finite time convergence guarantees. The algorithm operates on two time-scales: updates to the projection of state-action values are `slow’ in that they are implemented with a step size that is smaller than the one used for `faster’ updates of approximate solutions to Bellman’s recursive optimality equation. We show that, under certain assumptions, the proposed algorithm converges to a stationary point in the presence of Markovian noise. In addition, we provide a performance guarantee for the policies derived from the proposed algorithm.

arxiv情報

著者 Jiachen Xi,Alfredo Garcia,Petar Momcilovic
発行日 2025-02-10 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク