Beware of Instantaneous Dependence in Reinforcement Learning

要約

モデルベースの強化学習 (MBRL) で重要な役割を果たす環境モデルは、過去に基づいて未来の状態を予測することを目的としています。
既存の研究は通常、状態の​​瞬間的な依存性を無視しています。つまり、過去の状態が与えられた場合、将来の状態変数は条件付きで独立していると仮定しています。
ただし、瞬間的な依存は多くの RL 環境で一般的です。
たとえば、株式市場では、一方の株式の変動がもう一方の株式にすぐに影響を与える可能性があり、価格変動の解像度は効果の解像度よりも低いため、2 つの株式間に瞬間的な依存関係が存在する可能性があります。
この論文では、いくつかの例外を除いて、瞬間的な依存関係を無視すると、MBRL で次善のポリシー学習が発生する可能性があることを証明します。
準最適性の問題に対処するために、既存の MBRL アルゴリズムが瞬間的な依存関係を考慮できるようにする単純なプラグアンドプレイ方式を提案します。
2 つのベンチマークでの実験を通じて、(1) 可視化による瞬間的な依存の存在を確認します。
(2) 瞬間的な依存を無視すると次善の政策につながるという理論的発見を検証する。
(3) 提案手法が効果的に強化学習を有効にし、瞬時に依存してポリシーのパフォーマンスを向上させることを検証します。

要約(オリジナル)

Playing an important role in Model-Based Reinforcement Learning (MBRL), environment models aim to predict future states based on the past. Existing works usually ignore instantaneous dependence in the state, that is, assuming that the future state variables are conditionally independent given the past states. However, instantaneous dependence is prevalent in many RL environments. For instance, in the stock market, instantaneous dependence can exist between two stocks because the fluctuation of one stock can quickly affect the other and the resolution of price change is lower than that of the effect. In this paper, we prove that with few exceptions, ignoring instantaneous dependence can result in suboptimal policy learning in MBRL. To address the suboptimality problem, we propose a simple plug-and-play method to enable existing MBRL algorithms to take instantaneous dependence into account. Through experiments on two benchmarks, we (1) confirm the existence of instantaneous dependence with visualization; (2) validate our theoretical findings that ignoring instantaneous dependence leads to suboptimal policy; (3) verify that our method effectively enables reinforcement learning with instantaneous dependence and improves policy performance.

arxiv情報

著者 Zhengmao Zhu,Yuren Liu,Honglong Tian,Yang Yu,Kun Zhang
発行日 2023-03-09 17:57:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク