On the Statistical Benefits of Temporal Difference Learning

要約

アクションとその結果として得られる長期報酬に関するデータセットが与えられた場合、直接推定アプローチは、トレーニング データの予測誤差を最小限に抑える値関数を適合させます。
代わりに、時間差分学習 (TD) 手法は、連続するタイムステップで行われた推定間の時間的不一致の程度を最小限に抑えることによって値関数を適合させます。
有限状態マルコフ連鎖に焦点を当て、このアプローチの統計的利点の鮮明な漸近理論を提供します。
まず、直感的な逆軌道プーリング係数が、推定値の平均二乗誤差の減少率を完全に特徴付けることを示します。
問題の構造によっては、大幅な削減が行われる場合もあれば、まったく削減されない場合もあります。
次に、2 つの状態の残高の差の推定値に劇的な改善がある可能性があることを証明します。TD の誤差は、問題の軌道交差時間という新しい尺度によって制限されており、問題の軌道交差時間よりもはるかに小さくなる可能性があります。
時間の地平線。

要約(オリジナル)

Given a dataset on actions and resulting long-term rewards, a direct estimation approach fits value functions that minimize prediction error on the training data. Temporal difference learning (TD) methods instead fit value functions by minimizing the degree of temporal inconsistency between estimates made at successive time-steps. Focusing on finite state Markov chains, we provide a crisp asymptotic theory of the statistical advantages of this approach. First, we show that an intuitive inverse trajectory pooling coefficient completely characterizes the percent reduction in mean-squared error of value estimates. Depending on problem structure, the reduction could be enormous or nonexistent. Next, we prove that there can be dramatic improvements in estimates of the difference in value-to-go for two states: TD’s errors are bounded in terms of a novel measure – the problem’s trajectory crossing time – which can be much smaller than the problem’s time horizon.

arxiv情報

著者 David Cheikhi,Daniel Russo
発行日 2024-02-14 17:06:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク