Bias and Extrapolation in Markovian Linear Stochastic Approximation with Constant Stepsizes

要約

一定のステップサイズとマルコフ データを使用した線形確率近似 (LSA) を検討します。
データと LSA の結合プロセスを時間的に均一なマルコフ連鎖として反復することを観察し、ワッサーシュタイン距離における固有の制限された定常分布への収束を証明し、非漸近的な幾何学的収束率を確立します。
さらに、この制限のバイアス ベクトルがステップサイズに関して無限級数展開を許容することを示します。
したがって、バイアスは高次項までのステップサイズに比例します。
この結果は、i.i.d. での LSA とは対照的です。
バイアスが消えるデータ。
可逆チェーン設定では、マルコフ データのバイアスと混合時間の関係の一般的な特徴付けを提供し、それらが互いにほぼ比例することを確立します。
Polyak-Ruppert テール平均化は LSA 反復の分散を減少させますが、バイアスには影響しません。
上記の特徴付けにより、$m\ge 2$ ステップサイズの Richardson-Romberg 外挿を使用してバイアスを低減できることを示すことができます。これにより、バイアス展開の $m-1$ 先行項が削除されます。
この外挿スキームは、理論的にも経験的にも、指数関数的に小さいバイアスと改善された平均二乗誤差につながります。
私たちの結果は、線形関数近似、マルコフ データ、および一定のステップサイズを使用した時間差分学習アルゴリズムにすぐに適用されます。

要約(オリジナル)

We consider Linear Stochastic Approximation (LSA) with a constant stepsize and Markovian data. Viewing the joint process of the data and LSA iterate as a time-homogeneous Markov chain, we prove its convergence to a unique limiting and stationary distribution in Wasserstein distance and establish non-asymptotic, geometric convergence rates. Furthermore, we show that the bias vector of this limit admits an infinite series expansion with respect to the stepsize. Consequently, the bias is proportional to the stepsize up to higher order terms. This result stands in contrast with LSA under i.i.d. data, for which the bias vanishes. In the reversible chain setting, we provide a general characterization of the relationship between the bias and the mixing time of the Markovian data, establishing that they are roughly proportional to each other. While Polyak-Ruppert tail-averaging reduces the variance of the LSA iterates, it does not affect the bias. The above characterization allows us to show that the bias can be reduced using Richardson-Romberg extrapolation with $m\ge 2$ stepsizes, which eliminates the $m-1$ leading terms in the bias expansion. This extrapolation scheme leads to an exponentially smaller bias and an improved mean squared error, both in theory and empirically. Our results immediately apply to the Temporal Difference learning algorithm with linear function approximation, Markovian data, and constant stepsizes.

arxiv情報

著者 Dongyan Huo,Yudong Chen,Qiaomin Xie
発行日 2023-08-21 17:23:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク