Reducing Action Space for Deep Reinforcement Learning via Causal Effect Estimation

要約

大規模で冗長なアクションスペース内でのインテリジェントな意思決定は、深い強化学習において依然として挑戦的です。
各ステップで同様のが効果のないアクションを考慮すると、繰り返しのない非生産的な試験につながる可能性があります。
既存の方法は、冗長なアクションを削減または罰することにより、エージェントの探査を改善しようとしますが、冗長性を決定するための定量的で信頼できる証拠を提供していません。
この論文では、アクションの因果効果を推定することにより、探査効率を改善する方法を提案します。
以前の方法とは異なり、私たちのアプローチは、ワンステップ遷移のアクションの因果関係に関する定量的な結果を提供します。
最初に、環境の事前知識として機能する逆ダイナミクスモデルを事前訓練します。
その後、各時間ステップでアクション空間全体にわたってアクションを分類し、探索中の冗長アクションを抑制するために各アクションの因果効果を推定します。
私たちは、私たちの方法の有効性を実証する理論分析を提供し、そのパフォーマンスを評価するために冗長なアクションを備えた環境でのシミュレーションからの経験的結果を提示します。
実装はhttps://github.com/agi-brain/cee.gitで入手できます。

要約(オリジナル)

Intelligent decision-making within large and redundant action spaces remains challenging in deep reinforcement learning. Considering similar but ineffective actions at each step can lead to repetitive and unproductive trials. Existing methods attempt to improve agent exploration by reducing or penalizing redundant actions, yet they fail to provide quantitative and reliable evidence to determine redundancy. In this paper, we propose a method to improve exploration efficiency by estimating the causal effects of actions. Unlike prior methods, our approach offers quantitative results regarding the causality of actions for one-step transitions. We first pre-train an inverse dynamics model to serve as prior knowledge of the environment. Subsequently, we classify actions across the entire action space at each time step and estimate the causal effect of each action to suppress redundant actions during exploration. We provide a theoretical analysis to demonstrate the effectiveness of our method and present empirical results from simulations in environments with redundant actions to evaluate its performance. Our implementation is available at https://github.com/agi-brain/cee.git.

arxiv情報

著者 Wenzhang Liu,Lianjun Jin,Lu Ren,Chaoxu Mu,Changyin Sun
発行日 2025-01-24 14:47:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク