Non-Asymptotic Analysis of Stochastic Approximation Algorithms for Streaming Data

要約

【タイトル】ストリーミングデータの確率的近似アルゴリズムの非漸近解析

【要約】

– 求める最適化問題を、順次到着する時変のミニバッチを用いて解くストリーミングフレームワークを導入する。
– 確率的勾配降下法、ミニバッチ確率的勾配降下法、時変ミニバッチ確率的勾配降下法、さらにはその反復平均(ポリアック・ルッパート平均)のそれぞれの収束率を非漸近的に提供する。
– 学習率を時変ミニバッチに従って選ぶことで収束を加速する方法を示し、ポリアック・ルッパート平均がカーマーラオ下限を達成する意味で最適な収束を実現すること、そして時変ミニバッチとポリアック・ルッパート平均を組み合わせることで分散の低減と収束の加速を同時に実現できることを説明する。
– 上記効果を証明するために、様々な時変ミニバッチに対して評価を行うことで、オンライン、逐次、大規模学習などの多くの学習問題に有利であることを示す。

要約(オリジナル)

We introduce a streaming framework for analyzing stochastic approximation/optimization problems. This streaming framework is analogous to solving optimization problems using time-varying mini-batches that arrive sequentially. We provide non-asymptotic convergence rates of various gradient-based algorithms; this includes the famous Stochastic Gradient (SG) descent (a.k.a. Robbins-Monro algorithm), mini-batch SG and time-varying mini-batch SG algorithms, as well as their iterated averages (a.k.a. Polyak-Ruppert averaging). We show i) how to accelerate convergence by choosing the learning rate according to the time-varying mini-batches, ii) that Polyak-Ruppert averaging achieves optimal convergence in terms of attaining the Cramer-Rao lower bound, and iii) how time-varying mini-batches together with Polyak-Ruppert averaging can provide variance reduction and accelerate convergence simultaneously, which is advantageous for many learning problems, such as online, sequential, and large-scale learning. We further demonstrate these favorable effects for various time-varying mini-batches.

arxiv情報

著者 Antoine Godichon-Baggioni,Nicklas Werge,Olivier Wintenberger
発行日 2023-04-24 07:16:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク