Stochastic Gradient Descent under Markovian Sampling Schemes

要約

私たちは、オプティマイザーがマルコフ サンプリング スキームにのみアクセスできる、バニラの確率的勾配降下法のバリエーションを研究します。
これらのスキームには、ランダム ウォーカー (トークン アルゴリズム) を使用した分散最適化から、RL およびオンライン システム識別問題に至るまでのアプリケーションが含まれます。
私たちは、基礎となるマルコフ連鎖と最適化された関数に関して可能な限り制限の少ない仮定の下で収束率を取得することに重点を置いています。
まず、マルコフ連鎖の経路に沿って確率的勾配をサンプリングし、基礎となるマルコフ連鎖のヒット時間の依存性を明らかにする方法の理論的な下限を明らかにします。
次に、以前の研究よりもはるかに穏やかな規則性の仮定の下でマルコフ連鎖 SGD (MC-SGD) を研究します (例: 有界の勾配や領域がなく、無限の状態空間)。
最後に、分散削減を備えた MC-SGD の代替となる MC-SAG を紹介します。これはマルコフ連鎖のヒット時間のみに依存するため、通信効率の高いトークン アルゴリズムが得られます。

要約(オリジナル)

We study a variation of vanilla stochastic gradient descent where the optimizer only has access to a Markovian sampling scheme. These schemes encompass applications that range from decentralized optimization with a random walker (token algorithms), to RL and online system identification problems. We focus on obtaining rates of convergence under the least restrictive assumptions possible on the underlying Markov chain and on the functions optimized. We first unveil the theoretical lower bound for methods that sample stochastic gradients along the path of a Markov chain, making appear a dependency in the hitting time of the underlying Markov chain. We then study Markov chain SGD (MC-SGD) under much milder regularity assumptions than prior works (e.g., no bounded gradients or domain, and infinite state spaces). We finally introduce MC-SAG, an alternative to MC-SGD with variance reduction, that only depends on the hitting time of the Markov chain, therefore obtaining a communication-efficient token algorithm.

arxiv情報

著者 Mathieu Even
発行日 2023-06-23 12:28:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク