要約
感覚の知覚が実際のイベントの背後に遅れているため、遅延を伴う強化学習(RL)は、過去の観察に基づいて環境の実際の状態を推定する必要があります。
通常、最先端の(SOTA)メソッドは、状態の再帰的で段階的な予測を採用しています。
これにより、調合エラーが蓄積される可能性があります。
この問題に取り組むために、信念変圧器(DFBT)を直接予測する我々の新しい信念推定方法は、中間状態を段階的に推定することなく、状態を観測から直接予測します。
DFBTが既存の再帰的予測方法の複合エラーを大幅に減らし、パフォーマンス保証が強化されることを理論的に実証します。
D4RLオフラインデータセットを使用した実験では、DFBTは顕著な予測精度で複合エラーを減らします。
DFBTの状態シーケンスを予測する能力は、マルチステップブートストラップも容易にし、学習効率を大幅に改善します。
Mujoco Benchmarkでは、DFBTベースの方法がSotaベースラインを大幅に上回っています。
要約(オリジナル)
Reinforcement learning (RL) with delays is challenging as sensory perceptions lag behind the actual events: the RL agent needs to estimate the real state of its environment based on past observations. State-of-the-art (SOTA) methods typically employ recursive, step-by-step forecasting of states. This can cause the accumulation of compounding errors. To tackle this problem, our novel belief estimation method, named Directly Forecasting Belief Transformer (DFBT), directly forecasts states from observations without incrementally estimating intermediate states step-by-step. We theoretically demonstrate that DFBT greatly reduces compounding errors of existing recursively forecasting methods, yielding stronger performance guarantees. In experiments with D4RL offline datasets, DFBT reduces compounding errors with remarkable prediction accuracy. DFBT’s capability to forecast state sequences also facilitates multi-step bootstrapping, thus greatly improving learning efficiency. On the MuJoCo benchmark, our DFBT-based method substantially outperforms SOTA baselines.
arxiv情報
著者 | Qingyuan Wu,Yuhui Wang,Simon Sinong Zhan,Yixuan Wang,Chung-Wei Lin,Chen Lv,Qi Zhu,Jürgen Schmidhuber,Chao Huang |
発行日 | 2025-05-01 14:20:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google