Sequential Knockoffs for Variable Selection in Reinforcement Learning

要約

強化学習を実際に応用する場合、予備知識なしに節約的でマルコフ特性を満たす状態表現を取得するのは困難なことがよくあります。
したがって、連続した時点にわたる測定値を連結するなどして、必要以上に大きな状態を構築することが一般的です。
ただし、状態の次元を不必要に大きくすると、学習が遅くなり、学習されたポリシーがわかりにくくなる可能性があります。
マルコフ決定プロセス (MDP) に、プロセスが MDP のままで元のプロセスと同じ報酬関数を共有する元の状態のサブベクトルとして、最小十分状態の概念を導入します。
我々は、高次元の複雑な非線形ダイナミクスを備えたシステム内の最小十分状態を推定する新しい SEquEntial Knockoffs (SEEK) アルゴリズムを提案します。
大規模なサンプルでは、​​提案された方法は選択の一貫性を実現します。
この方法は適用される強化学習アルゴリズムに依存しないため、ポリシー学習などの下流タスクに利益をもたらします。
実証実験は理論的結果を検証し、提案されたアプローチが変数選択の精度とリグレスに関していくつかの競合する方法よりも優れていることを示しています。

要約(オリジナル)

In real-world applications of reinforcement learning, it is often challenging to obtain a state representation that is parsimonious and satisfies the Markov property without prior knowledge. Consequently, it is common practice to construct a state larger than necessary, e.g., by concatenating measurements over contiguous time points. However, needlessly increasing the dimension of the state may slow learning and obfuscate the learned policy. We introduce the notion of a minimal sufficient state in a Markov decision process (MDP) as the subvector of the original state under which the process remains an MDP and shares the same reward function as the original process. We propose a novel SEquEntial Knockoffs (SEEK) algorithm that estimates the minimal sufficient state in a system with high-dimensional complex nonlinear dynamics. In large samples, the proposed method achieves selection consistency. As the method is agnostic to the reinforcement learning algorithm being applied, it benefits downstream tasks such as policy learning. Empirical experiments verify theoretical results and show the proposed approach outperforms several competing methods regarding variable selection accuracy and regret.

arxiv情報

著者 Tao Ma,Jin Zhu,Hengrui Cai,Zhengling Qi,Yunxiao Chen,Chengchun Shi,Eric B. Laber
発行日 2024-07-30 15:42:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク