Central Limit Theorem for Two-Timescale Stochastic Approximation with Markovian Noise: Theory and Applications

要約

2 タイムスケール確率的近似 (TTSA) は、反復確率的アルゴリズムの最も一般的なフレームワークの 1 つです。
これには、SGD バリアントやバイレベルまたはミニマックス問題用に設計されたものなどのよく知られた確率的最適化手法に加え、勾配ベースの時間差分 (GTD) アルゴリズムのファミリーのような強化学習が含まれます。
この論文では、中心極限定理 (CLT) を介して制御されたマルコフ ノイズの下で TTSA の詳細な漸近解析を実行し、以前の TTSA の CLT 結果では扱われていなかった、基礎となるマルコフ連鎖の影響を受ける TTSA の連成ダイナミクスを明らかにします。
マーチンゲール差ノイズのみ。
CLT に基づいて、効率的なサンプリング戦略の応用範囲をバニラの SGD から分散学習におけるより広範な TTSA コンテキストに拡張し、Hu らの範囲を広げます。
(2022年)。
さらに、CLT の結果を利用して、マルコフ サンプルを使用した非線形関数近似による GTD アルゴリズムの統計的特性を推定し、それらの同一の漸近パフォーマンスを示します。この観点は、現在の有限時間限界からは明らかではありません。

要約(オリジナル)

Two-timescale stochastic approximation (TTSA) is among the most general frameworks for iterative stochastic algorithms. This includes well-known stochastic optimization methods such as SGD variants and those designed for bilevel or minimax problems, as well as reinforcement learning like the family of gradient-based temporal difference (GTD) algorithms. In this paper, we conduct an in-depth asymptotic analysis of TTSA under controlled Markovian noise via central limit theorem (CLT), uncovering the coupled dynamics of TTSA influenced by the underlying Markov chain, which has not been addressed by previous CLT results of TTSA only with Martingale difference noise. Building upon our CLT, we expand its application horizon of efficient sampling strategies from vanilla SGD to a wider TTSA context in distributed learning, thus broadening the scope of Hu et al. (2022). In addition, we leverage our CLT result to deduce the statistical properties of GTD algorithms with nonlinear function approximation using Markovian samples and show their identical asymptotic performance, a perspective not evident from current finite-time bounds.

arxiv情報

著者 Jie Hu,Vishwaraj Doshi,Do Young Eun
発行日 2024-01-17 17:01:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク