要約
強化学習は、観測と相互作用が遅延して発生する一般的な実世界の状況である遅延シナリオにおいて挑戦的である。最新の(SOTA)状態増強技術は、遅延ステップに伴う状態空間の爆発に悩まされるか、確率的環境において性能が低下するかのどちらかである。これらの課題を解決するために、我々の新しい補助遅延強化学習(AD-RL)は、補助的な短遅延タスクを活用することで、確率環境における性能を損なうことなく、長遅延タスクの学習を加速する。具体的には、AD-RLは短遅延タスクで価値関数を学習し、長遅延タスクでブートストラップと政策改善技術を用いる。これにより、元の遅延の長いタスクで直接学習する場合に比べ、サンプルの複雑さを大幅に削減できることを理論的に示す。決定論的及び確率的ベンチマークにおいて、我々の手法はサンプル効率と政策性能の両方においてSOTAを著しく上回る。
要約(オリジナル)
Reinforcement learning is challenging in delayed scenarios, a common real-world situation where observations and interactions occur with delays. State-of-the-art (SOTA) state-augmentation techniques either suffer from the state-space explosion along with the delayed steps, or performance degeneration in stochastic environments. To address these challenges, our novel Auxiliary-Delayed Reinforcement Learning (AD-RL) leverages an auxiliary short-delayed task to accelerate the learning on a long-delayed task without compromising the performance in stochastic environments. Specifically, AD-RL learns the value function in the short-delayed task and then employs it with the bootstrapping and policy improvement techniques in the long-delayed task. We theoretically show that this can greatly reduce the sample complexity compared to directly learning on the original long-delayed task. On deterministic and stochastic benchmarks, our method remarkably outperforms the SOTAs in both sample efficiency and policy performance.
arxiv情報
著者 | Qingyuan Wu,Simon Sinong Zhan,Yixuan Wang,Chung-Wei Lin,Chen Lv,Qi Zhu,Chao Huang |
発行日 | 2024-02-05 16:11:03+00:00 |
arxivサイト | arxiv_id(pdf) |