Generalization Bounds for Heavy-Tailed SDEs through the Fractional Fokker-Planck Equation

要約

重尾行確率最適化アルゴリズムの汎化特性を理解することは、ここ数年注目を集めている。重尾行確率微分方程式をプロキシとして用いることで、確率最適化アルゴリズムの興味深い側面を明らかにする一方で、先行研究は期待される汎化境界を提供するか、計算不可能な情報理論的項を導入している。これらの欠点に対処するため、本研究では、非自明な情報理論的項を含まない重尾行SDEに対して、高確率の一般化境界を証明する。この目標を達成するために、いわゆる分数Fokker-Planck方程式(対応する重尾部SDEの分布の進化を支配する偏微分方程式)に関連するエントロピーの流れを推定することに基づく新しい証明技法を開発する。高確率の境界を得ることに加え、先行技術と比較して、我々の境界がパラメータの次元に対してより良い依存性を持つことを示す。さらに、我々の結果は相転移現象を特定し、重い尾部は問題構造に応じて有益にも有害にもなり得ることを示唆する。様々な設定で行った実験により、我々の理論を支持する。

要約(オリジナル)

Understanding the generalization properties of heavy-tailed stochastic optimization algorithms has attracted increasing attention over the past years. While illuminating interesting aspects of stochastic optimizers by using heavy-tailed stochastic differential equations as proxies, prior works either provided expected generalization bounds, or introduced non-computable information theoretic terms. Addressing these drawbacks, in this work, we prove high-probability generalization bounds for heavy-tailed SDEs which do not contain any nontrivial information theoretic terms. To achieve this goal, we develop new proof techniques based on estimating the entropy flows associated with the so-called fractional Fokker-Planck equation (a partial differential equation that governs the evolution of the distribution of the corresponding heavy-tailed SDE). In addition to obtaining high-probability bounds, we show that our bounds have a better dependence on the dimension of parameters as compared to prior art. Our results further identify a phase transition phenomenon, which suggests that heavy tails can be either beneficial or harmful depending on the problem structure. We support our theory with experiments conducted in a variety of settings.

arxiv情報

著者 Benjamin Dupuis,Umut Şimşekli
発行日 2024-06-03 14:20:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク