要約
不完全なデータ、交絡効果、およびマルコフプロパティの違反は、強化学習アプリケーションで遍在する相互に関連する問題です。
「部分的な無知」の概念を紹介し、それを活用して、適応補強学習のための新しい収束定理を確立します。
この理論的結果は、従来の$ q $ relearningの根底にある確率プロセスのマルコフの仮定を緩和し、最適性を確立するためにロビンズモンロ確率的近似定理の一般化された形式を展開します。
この結果は、強化学習のほとんどのアクティブなサブフィールドに明確な下流の意味を持ち、因果推論の分野に拡張するための明確な経路を備えています。
要約(オリジナル)
Incomplete data, confounding effects, and violations of the Markov property are interrelated problems which are ubiquitous in Reinforcement Learning applications. We introduce the concept of “partial ignorabilty’ and leverage it to establish a novel convergence theorem for adaptive Reinforcement Learning. This theoretical result relaxes the Markov assumption on the stochastic process underlying conventional $Q$-learning, deploying a generalized form of the Robbins-Monro stochastic approximation theorem to establish optimality. This result has clear downstream implications for most active subfields of Reinforcement Learning, with clear paths for extension to the field of Causal Inference.
arxiv情報
著者 | MaryLena Bleile |
発行日 | 2025-04-10 13:15:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google