How to escape sharp minima with random perturbations

要約

現代の機械学習アプリケーションでは、平坦極小値を求めるように設計された最適化アルゴリズムが目覚ましい成功を収めている。この設計の選択に動機づけられ、我々は(i)平坦極小の概念を定式化し、(ii)平坦極小を求める複雑さを研究する。具体的には、コスト関数のヘシアンのトレースを平坦性の尺度として採用し、それを用いて近似平坦極小の概念を正式に定義する。この概念の下で、近似平坦極小値を効率的に求めるアルゴリズムを解析する。一般的なコスト関数について、近似的な平坦な局所最小値を効率的に求める勾配ベースのアルゴリズムについて議論する。このアルゴリズムの主な構成要素は、ランダムに摂動された反復から計算された勾配を用いて、より平坦な極小値を導く方向を推定することである。コスト関数が訓練データに対する経験的リスクである設定に対しては、最近提案されたシャープネスを考慮した最小化と呼ばれる実用的アルゴリズムに触発された、より高速なアルゴリズムを提示し、実践での成功を支持する。

要約(オリジナル)

Modern machine learning applications have witnessed the remarkable success of optimization algorithms that are designed to find flat minima. Motivated by this design choice, we undertake a formal study that (i) formulates the notion of flat minima, and (ii) studies the complexity of finding them. Specifically, we adopt the trace of the Hessian of the cost function as a measure of flatness, and use it to formally define the notion of approximate flat minima. Under this notion, we then analyze algorithms that find approximate flat minima efficiently. For general cost functions, we discuss a gradient-based algorithm that finds an approximate flat local minimum efficiently. The main component of the algorithm is to use gradients computed from randomly perturbed iterates to estimate a direction that leads to flatter minima. For the setting where the cost function is an empirical risk over training data, we present a faster algorithm that is inspired by a recently proposed practical algorithm called sharpness-aware minimization, supporting its success in practice.

arxiv情報

著者 Kwangjun Ahn,Ali Jadbabaie,Suvrit Sra
発行日 2024-02-02 16:38:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク