要約
価値関数は、強化学習と最適制御の両方においてエージェントが受け取る将来の累積報酬の尺度として重要な役割を果たします。
したがって、隣接する状態の値がどの程度類似しているかを研究すること、つまり、値関数の連続性を調査することは興味深いことです。
これは、値関数の連続係数の上限を指定して検証することによって行われます。
さらに、基礎となるシステムの比較的弱い仮定の下では、値関数が常に古い連続であること、および微分不可能な値関数はシステムをわずかに「撹乱」することによって微分可能にできることを示します。
要約(オリジナル)
The value function plays a crucial role as a measure for the cumulative future reward an agent receives in both reinforcement learning and optimal control. It is therefore of interest to study how similar the values of neighboring states are, i.e., to investigate the continuity of the value function. We do so by providing and verifying upper bounds on the value function’s modulus of continuity. Additionally, we show that the value function is always H\’older continuous under relatively weak assumptions on the underlying system and that non-differentiable value functions can be made differentiable by slightly ‘disturbing’ the system.
arxiv情報
著者 | Hans Harder,Sebastian Peitz |
発行日 | 2024-03-21 14:39:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google