Generalization Error of First-Order Methods for Statistical Learning with Generic Oracles

要約

この論文では、オラクルによって与えられた部分的な観測を通じてのみ勾配にアクセスできる場合の、統計学習のための一次最適化アルゴリズムの汎化誤差を分析するための新しいフレームワークを提供します。
私たちの分析は、全体の勾配の規則性に依存しています。
データ サンプルを使用して、教師あり学習、転移学習、ロバスト学習、分散学習、勾配量子化を使用した通信効率の高い学習など、複数の学習問題の一般化誤差のほぼ一致する上限と下限を導出することができます。
これらの結果は、滑らかで凸の強い最適化問題だけでなく、Polyak-Lojasiewicz の仮定を検証する滑らかな非凸の最適化問題にも当てはまります。
特に、上限と下限は、条件付き標準偏差の概念を拡張する新しい量に依存しており、オラクルにアクセスすることで勾配をどの程度近似できるかの尺度になります。
結果として、私たちの分析は、統計的学習目標の最適化はその勾配の推定と同じくらい難しいという直観に正確な意味を与えます。
最後に、標準的な教師あり学習の場合、バッチ サイズを増加させてウォーム スタートを行うミニバッチ勾配降下法は、乗算係数まで最適な汎化誤差に到達する可能性があることを示し、このため、この最適化スキームを次の分野で使用する動機になります。
実用的なアプリケーション。

要約(オリジナル)

In this paper, we provide a novel framework for the analysis of generalization error of first-order optimization algorithms for statistical learning when the gradient can only be accessed through partial observations given by an oracle. Our analysis relies on the regularity of the gradient w.r.t. the data samples, and allows to derive near matching upper and lower bounds for the generalization error of multiple learning problems, including supervised learning, transfer learning, robust learning, distributed learning and communication efficient learning using gradient quantization. These results hold for smooth and strongly-convex optimization problems, as well as smooth non-convex optimization problems verifying a Polyak-Lojasiewicz assumption. In particular, our upper and lower bounds depend on a novel quantity that extends the notion of conditional standard deviation, and is a measure of the extent to which the gradient can be approximated by having access to the oracle. As a consequence, our analysis provides a precise meaning to the intuition that optimization of the statistical learning objective is as hard as the estimation of its gradient. Finally, we show that, in the case of standard supervised learning, mini-batch gradient descent with increasing batch sizes and a warm start can reach a generalization error that is optimal up to a multiplicative factor, thus motivating the use of this optimization scheme in practical applications.

arxiv情報

著者 Kevin Scaman,Mathieu Even,Laurent Massoulié
発行日 2023-07-10 16:29:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク