要約
マルコフ決定プロセス(MDP)の新しい幾何学的解釈を、ポリシーに関するアクションの利点を変更せずに各状態で値関数を調整できる自然な正規化手順を提示します。
MDPのこのアドバンテージを提供する変換は、ほぼ最適なポリシーを簡単に見つけることができるまで、これらの変換を繰り返すことでMDPを解決することにより、MDPを解くバランスをとるアルゴリズムのクラスを動機付けます。
このクラスのいくつかのアルゴリズムの収束分析を提供します。特に、未知の遷移確率のMDPについては、最先端のサンプルの複雑さの結果を改善できることを示しています。
要約(オリジナル)
We present a new geometric interpretation of Markov Decision Processes (MDPs) with a natural normalization procedure that allows us to adjust the value function at each state without altering the advantage of any action with respect to any policy. This advantage-preserving transformation of the MDP motivates a class of algorithms which we call Reward Balancing, which solve MDPs by iterating through these transformations, until an approximately optimal policy can be trivially found. We provide a convergence analysis of several algorithms in this class, in particular showing that for MDPs for unknown transition probabilities we can improve upon state-of-the-art sample complexity results.
arxiv情報
著者 | Arsenii Mustafin,Aleksei Pakharev,Alex Olshevsky,Ioannis Ch. Paschalidis |
発行日 | 2025-03-05 15:40:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google