Computing Approximated Fixpoints via Dampened Mann Iteration

要約

固定点はコンピュータ サイエンスのいたるところに存在し、定量的意味論や検証を扱う場合、非負実数に対する (高次元) 関数の最小固定点を考慮することが一般的です。
このような関数の最小固定点を近似する方法を、関数が正確にはわかっていないが、それらに収束する一連の近似関数によって表される場合に焦点を当てて示します。
ここでは、固定点の一意性が保証されておらず、標準的な固定点反復スキームが少なくとも固定点でスタックする可能性がある単調で非拡張的な関数に焦点を当てます。
私たちの主な貢献は、減衰係数を備えたマン反復のバリエーションである反復スキームの特定です。これは、適切な条件下で、対象の関数の最小固定点への収束を保証することが示されています。
次に、これらの結果がマルコフ決定プロセス (MDP) のモデルベースの強化学習のコンテキストに関連していると主張し、提案された反復スキームが MDP にインスタンス化され、最適な期待収益への収束を導き出すことができることを示します。
より一般的には、単純な確率ゲームなどの確率システムで起こるように、対象の関数が与えられた確率誤差限界で近似できるシステムでは、結果を使用してほぼ確実に最小固定点まで反復できることを示します。
サンプリングを通じて調査することができます。

要約(オリジナル)

Fixpoints are ubiquitous in computer science and when dealing with quantitative semantics and verification one is commonly led to consider least fixpoints of (higher-dimensional) functions over the nonnegative reals. We show how to approximate the least fixpoint of such functions, focusing on the case in which they are not known precisely, but represented by a sequence of approximating functions that converge to them. We concentrate on monotone and non-expansive functions, for which uniqueness of fixpoints is not guaranteed and standard fixpoint iteration schemes might get stuck at a fixpoint that is not the least. Our main contribution is the identification of an iteration scheme, a variation of Mann iteration with a dampening factor, which, under suitable conditions, is shown to guarantee convergence to the least fixpoint of the function of interest. We then argue that these results are relevant in the context of model-based reinforcement learning for Markov decision processes (MDPs), showing that the proposed iteration scheme instantiates to MDPs and allows us to derive convergence to the optimal expected return. More generally, we show that our results can be used to iterate to the least fixpoint almost surely for systems where the function of interest can be approximated with given probabilistic error bounds, as it happens for probabilistic systems, such as simple stochastic games, that can be explored via sampling.

arxiv情報

著者 Paolo Baldan,Sebastian Gurke,Barbara König,Tommaso Padoan,Florian Wittbold
発行日 2025-01-15 16:52:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.LO パーマリンク