Strategy Complexity of Point Payoff, Mean Payoff and Total Payoff Objectives in Countable MDPs

要約

実数値の遷移報酬を持つ可算無限マルコフ決定過程(MDP)を研究する。各無限実行は次のようなペイオフ列を生成する。1.ポイントペイオフ(直接見た遷移報酬の列)、2.平均ペイオフ(これまでの報酬の総和をステップ数で割った列)、3.トータルペイオフ(これまでのすべての報酬の合計のシーケンス)。各ペイオフタイプにおいて、$liminf$が非負である確率を最大化することが目的である。これらの目的の戦略複雑性の全体像、すなわち、$varepsilon$-最適(resp.最適)戦略にどれだけのメモリが必要かつ十分であるかを確立する。メモリなしの決定論的戦略で勝てるケースもあれば、ステップカウンタ、報酬カウンタ、あるいはその両方が必要なケースもある。

要約(オリジナル)

We study countably infinite Markov decision processes (MDPs) with real-valued transition rewards. Every infinite run induces the following sequences of payoffs: 1. Point payoff (the sequence of directly seen transition rewards), 2. Mean payoff (the sequence of the sums of all rewards so far, divided by the number of steps), and 3. Total payoff (the sequence of the sums of all rewards so far). For each payoff type, the objective is to maximize the probability that the $\liminf$ is non-negative. We establish the complete picture of the strategy complexity of these objectives, i.e., how much memory is necessary and sufficient for $\varepsilon$-optimal (resp. optimal) strategies. Some cases can be won with memoryless deterministic strategies, while others require a step counter, a reward counter, or both.

arxiv情報

著者 Richard Mayr,Eric Munday
発行日 2023-03-03 09:28:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CC, cs.GT, math.PR パーマリンク