要約
線形関数近似による時間差分 (TD) 学習 (線形 TD と略称) は、強化学習における古典的で強力な予測アルゴリズムです。
線形 TD がほぼ確実に一意の点に収束することはよく理解されていますが、この収束には伝統的に、近似器で使用される特徴が線形独立であるという仮定が必要です。
ただし、この線形独立性の仮定は、多くの実際のシナリオでは当てはまりません。
この研究は、線形独立特徴を必要とせずに線形 TD のほぼ確実な収束を確立した最初の研究です。
実際、私たちは機能について何の仮定も行っていません。
近似値関数が一意の点に収束し、重みの反復が集合に収束することを証明します。
また、重み反復の局所的安定性の概念も確立します。
重要なのは、他の追加の仮定を導入する必要がなく、線形 TD アルゴリズムに変更を加える必要もないことです。
私たちの分析の鍵は、線形 TD の平均 ODE の有界不変集合の新しい特徴付けです。
要約(オリジナル)
Temporal difference (TD) learning with linear function approximation, abbreviated as linear TD, is a classic and powerful prediction algorithm in reinforcement learning. While it is well understood that linear TD converges almost surely to a unique point, this convergence traditionally requires the assumption that the features used by the approximator are linearly independent. However, this linear independence assumption does not hold in many practical scenarios. This work is the first to establish the almost sure convergence of linear TD without requiring linearly independent features. In fact, we do not make any assumptions on the features. We prove that the approximated value function converges to a unique point and the weight iterates converge to a set. We also establish a notion of local stability of the weight iterates. Importantly, we do not need to introduce any other additional assumptions and do not need to make any modification to the linear TD algorithm. Key to our analysis is a novel characterization of bounded invariant sets of the mean ODE of linear TD.
arxiv情報
著者 | Jiuqi Wang,Shangtong Zhang |
発行日 | 2024-09-18 16:59:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google