要約
ターゲット ネットワークと過剰パラメータ化された線形関数近似の組み合わせにより、特定のケースでは、ポリシー外のデータであってもブートストラップ値推定の弱い収束条件が確立されることを証明します。
私たちの条件は、状態アクション空間全体にわたる期待される更新、またはエピソード的なマルコフ決定プロセスからの完全な軌跡のバッチによる学習に対して自然に満たされます。
特に、ターゲット ネットワークのみを使用したり、過剰にパラメータ化されたモデルを使用したりすると、そのような収束は保証されません。
さらに、結果を切り捨てられた軌道を使用した学習に拡張し、わずかな変更を加えればすべてのタスクで収束が達成可能であることを示します。これは、軌道の最終状態の値の切り捨てと同様です。
私たちの主な結果は、予測のための時間差推定に焦点を当てており、高確率の値推定誤差限界と、ベアードの反例および 4 部屋タスクに関する経験的分析を提供します。
さらに、制御設定を調査し、同様の収束条件が Q 学習にも適用されることを示します。
要約(オリジナル)
We prove that the combination of a target network and over-parameterized linear function approximation establishes a weaker convergence condition for bootstrapped value estimation in certain cases, even with off-policy data. Our condition is naturally satisfied for expected updates over the entire state-action space or learning with a batch of complete trajectories from episodic Markov decision processes. Notably, using only a target network or an over-parameterized model does not provide such a convergence guarantee. Additionally, we extend our results to learning with truncated trajectories, showing that convergence is achievable for all tasks with minor modifications, akin to value truncation for the final states in trajectories. Our primary result focuses on temporal difference estimation for prediction, providing high-probability value estimation error bounds and empirical analysis on Baird’s counterexample and a Four-room task. Furthermore, we explore the control setting, demonstrating that similar convergence conditions apply to Q-learning.
arxiv情報
著者 | Fengdi Che,Chenjun Xiao,Jincheng Mei,Bo Dai,Ramki Gummadi,Oscar A Ramirez,Christopher K Harris,A. Rupam Mahmood,Dale Schuurmans |
発行日 | 2024-05-31 17:36:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google