要約
マルコフの決定プロセスにおける多次元ペイオフ関数を検討し、特定の予想ペイオフベクトルを達成できるかどうかを尋ねます。
一般に、この問題については、純粋な戦略(つまり、ランダム化に頼らない)で十分ではありません。
多次元のペイオフ関数と戦略のランダム化要件に関するその結果を考慮して、すべての戦略の予想されるペイオフベクトルのセットの構造を研究します。
特に、すべての戦略の下で期待が明確に定義されているペイオフについては、混合するだけで十分であることを証明します(つまり、劇の開始時に純粋な戦略をランダムに選択し、プレイの残りの部分でそれにコミットすることを証明します。
)予想されるペイオフベクトルを精度まで近似するための多くの純粋な戦略。
さらに、予想されるペイオフがすべての戦略の下で有限である場合、予想されるペイオフは、有限の多くの戦略を混合することで正確に取得できます。
要約(オリジナル)
We consider multi-dimensional payoff functions in Markov decision processes, and ask whether a given expected payoff vector can be achieved or not. In general, pure strategies (i.e., not resorting to randomisation) do not suffice for this problem. We study the structure of the set of expected payoff vectors of all strategies given a multi-dimensional payoff function and its consequences regarding randomisation requirements for strategies. In particular, we prove that for any payoff for which the expectation is well-defined under all strategies, it is sufficient to mix (i.e., randomly select a pure strategy at the start of a play and committing to it for the rest of the play) finitely many pure strategies to approximate any expected payoff vector up to any precision. Furthermore, for any payoff for which the expected payoff is finite under all strategies, any expected payoff can be obtained exactly by mixing finitely many strategies.
arxiv情報
著者 | James C. A. Main,Mickael Randour |
発行日 | 2025-02-25 15:33:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google