要約
大規模なマルチエージェント強化学習への応用を動機として、マルコフ サンプリングのもとで遅延更新を伴う確率的近似 (SA) スキームの非漸近的パフォーマンスを研究します。
遅延の影響は最適化のために広範に研究されていますが、遅延が基礎となるマルコフ過程と相互作用して SA の有限時間パフォーマンスを形成する方法については、まだほとんど理解されていません。
これに関連して、私たちの最初の主な貢献は、時間とともに変化する制限された遅延の下で、遅延 SA 更新ルールにより、\emph{最後の反復} が SA 演算子の固定点の周りのボールに指数関数的に高速に収束することを保証することを示すことです。
特に、私たちの限界は最大遅延 $\tau_{max}$ と混合時間 $\tau_{mix}$ の両方に依存する点で \emph{タイト}です。
この厳しい限界を達成するために、我々は、既存のさまざまな遅延最適化解析とは異なり、反復の均一な境界を確立することに依存する、新しい帰納的証明手法を開発します。
したがって、私たちの証明は独立して興味深いものになる可能性があります。
次に、収束率に対する最大遅延の影響を軽減するために、マルコフ サンプリングに基づく遅延適応 SA スキームの最初の有限時間解析を提供します。
特に、このスキームの収束指数は、バニラの遅延 SA ルールの $\tau_{max}$ とは対照的に、$\tau_{avg}$ だけスケールダウンされることを示します。
ここで、$\tau_{avg}$ は、すべての反復にわたる平均遅延を示します。
さらに、適応スキームは、ステップサイズ調整のための遅延シーケンスについての事前の知識を必要としません。
私たちの理論的発見は、TD 学習、Q 学習、マルコフ サンプリングに基づく確率的勾配降下法などの広範なクラスのアルゴリズムにおける遅延の有限時間の影響を明らかにします。
要約(オリジナル)
Motivated by applications in large-scale and multi-agent reinforcement learning, we study the non-asymptotic performance of stochastic approximation (SA) schemes with delayed updates under Markovian sampling. While the effect of delays has been extensively studied for optimization, the manner in which they interact with the underlying Markov process to shape the finite-time performance of SA remains poorly understood. In this context, our first main contribution is to show that under time-varying bounded delays, the delayed SA update rule guarantees exponentially fast convergence of the \emph{last iterate} to a ball around the SA operator’s fixed point. Notably, our bound is \emph{tight} in its dependence on both the maximum delay $\tau_{max}$, and the mixing time $\tau_{mix}$. To achieve this tight bound, we develop a novel inductive proof technique that, unlike various existing delayed-optimization analyses, relies on establishing uniform boundedness of the iterates. As such, our proof may be of independent interest. Next, to mitigate the impact of the maximum delay on the convergence rate, we provide the first finite-time analysis of a delay-adaptive SA scheme under Markovian sampling. In particular, we show that the exponent of convergence of this scheme gets scaled down by $\tau_{avg}$, as opposed to $\tau_{max}$ for the vanilla delayed SA rule; here, $\tau_{avg}$ denotes the average delay across all iterations. Moreover, the adaptive scheme requires no prior knowledge of the delay sequence for step-size tuning. Our theoretical findings shed light on the finite-time effects of delays for a broad class of algorithms, including TD learning, Q-learning, and stochastic gradient descent under Markovian sampling.
arxiv情報
著者 | Arman Adibi,Nicolo Dal Fabbro,Luca Schenato,Sanjeev Kulkarni,H. Vincent Poor,George J. Pappas,Hamed Hassani,Aritra Mitra |
発行日 | 2024-03-27 15:48:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google