Minimizing the Outage Probability in a Markov Decision Process

要約

標準のマルコフ決定プロセス (MDP) と強化学習アルゴリズムは、期待されるゲインに関してポリシーを最適化します。
代替目的を最適化できるようにするアルゴリズムを提案します。つまり、ゲインが特定の値よりも大きくなる確率です。
このアルゴリズムは、値反復アルゴリズムの拡張と見なすことができます。
また、Q 学習のディープ Q 学習拡張と同様に、ニューラル ネットワークを使用するために提案されたアルゴリズムを一般化する方法も示します。

要約(オリジナル)

Standard Markov decision process (MDP) and reinforcement learning algorithms optimize the policy with respect to the expected gain. We propose an algorithm which enables to optimize an alternative objective: the probability that the gain is greater than a given value. The algorithm can be seen as an extension of the value iteration algorithm. We also show how the proposed algorithm could be generalized to use neural networks, similarly to the deep Q learning extension of Q learning.

arxiv情報

著者 Vincent Corlay,Jean-Christophe Sibel
発行日 2023-02-28 16:26:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク