An Optimal Tightness Bound for the Simulation Lemma

要約

定数要因を含む、モデルの仕様ミスに関する値予測誤差の限界を厳密に提示します。
これは、強化学習の基本的な結果である「シミュレーション補題」を直接改良したものです。
我々は、複利確率誤差の次善の処理により、既存の境界が非常に緩く、大きな割引係数に対して空虚になることを示します。
この量を値誤差のサブコンポーネントとしてではなく、それ自体で慎重に検討することにより、遷移関数の指定ミスに関して準線形である境界を導き出します。
次に、この手法のより幅広い適用可能性を実証し、階層抽象化の関連サブフィールドにおける同様の境界を改善します。

要約(オリジナル)

We present a bound for value-prediction error with respect to model misspecification that is tight, including constant factors. This is a direct improvement of the ‘simulation lemma,’ a foundational result in reinforcement learning. We demonstrate that existing bounds are quite loose, becoming vacuous for large discount factors, due to the suboptimal treatment of compounding probability errors. By carefully considering this quantity on its own, instead of as a subcomponent of value error, we derive a bound that is sub-linear with respect to transition function misspecification. We then demonstrate broader applicability of this technique, improving a similar bound in the related subfield of hierarchical abstraction.

arxiv情報

著者 Sam Lobel,Ronald Parr
発行日 2024-10-25 14:39:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク