Concentration of Cumulative Reward in Markov Decision Processes

要約

この論文では、漸近的設定と非漸近的設定の両方に焦点を当てて、マルコフ決定プロセス (MDP) における累積報酬の集中特性を調査します。
我々は、無限ホライズン設定(すなわち、平均報酬フレームワークと割引報酬フレームワーク)と有限ホライズン設定の両方をカバーする、MDP における報酬集中を特徴付けるための統一アプローチを導入します。
漸近的な結果には大数の法則、中心極限定理、反復対数の法則が含まれますが、非漸近限界には東ヘフディング型不等式と反復対数の法則の非漸近バージョンが含まれます。
さらに、結果の 2 つの重要な意味を調査します。
まず、任意の 2 つの定常ポリシー間の報酬の差のサンプル パスの動作を分析します。
第二に、文献で提案されている学習政策に対する後悔の 2 つの代替定義が割合と同等であることを示します。
私たちの証明技術は、累積報酬の新しいマルチンゲール分解、政策評価固定小数点方程式の解の特性、およびマルチンゲール差分列の漸近濃度と非漸近濃度の両方の結果に依存しています。

要約(オリジナル)

In this paper, we investigate the concentration properties of cumulative rewards in Markov Decision Processes (MDPs), focusing on both asymptotic and non-asymptotic settings. We introduce a unified approach to characterize reward concentration in MDPs, covering both infinite-horizon settings (i.e., average and discounted reward frameworks) and finite-horizon setting. Our asymptotic results include the law of large numbers, the central limit theorem, and the law of iterated logarithms, while our non-asymptotic bounds include Azuma-Hoeffding-type inequalities and a non-asymptotic version of the law of iterated logarithms. Additionally, we explore two key implications of our results. First, we analyze the sample path behavior of the difference in rewards between any two stationary policies. Second, we show that two alternative definitions of regret for learning policies proposed in the literature are rate-equivalent. Our proof techniques rely on a novel martingale decomposition of cumulative rewards, properties of the solution to the policy evaluation fixed-point equation, and both asymptotic and non-asymptotic concentration results for martingale difference sequences.

arxiv情報

著者 Borna Sayedana,Peter E. Caines,Aditya Mahajan
発行日 2024-11-27 17:51:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, stat.ML パーマリンク