要約
重尾の確率的最適化アルゴリズムの一般化特性を理解することで、過去数年間で注目を集めています。
重尾の確率的微分方程式をプロキシとして使用して、確率的オプティマイザーの興味深い側面を照らしながら、以前の作品は予想される一般化境界を提供するか、計算不可能な情報理論的用語を導入しました。
これらの欠点に対処するこの作業では、非自明の情報理論的用語を含まない重尾部のSDEの高度な一般化境界線を証明します。
この目標を達成するために、いわゆる分数Fokker-Planck方程式に関連するエントロピーフローを推定することに基づいて、新しい証明技術を開発します(対応するヘビーテールSDEの分布の進化を支配する部分微分方程式)。
高度な境界を取得することに加えて、私たちの境界は、以前のARTと比較してパラメーターの次元により良い依存性があることを示します。
私たちの結果は、相転移現象をさらに特定します。これは、問題の構造に応じて、重い尾が有益または有害であることを示唆しています。
私たちは、さまざまな設定で行われた実験で理論をサポートしています。
要約(オリジナル)
Understanding the generalization properties of heavy-tailed stochastic optimization algorithms has attracted increasing attention over the past years. While illuminating interesting aspects of stochastic optimizers by using heavy-tailed stochastic differential equations as proxies, prior works either provided expected generalization bounds, or introduced non-computable information theoretic terms. Addressing these drawbacks, in this work, we prove high-probability generalization bounds for heavy-tailed SDEs which do not contain any nontrivial information theoretic terms. To achieve this goal, we develop new proof techniques based on estimating the entropy flows associated with the so-called fractional Fokker-Planck equation (a partial differential equation that governs the evolution of the distribution of the corresponding heavy-tailed SDE). In addition to obtaining high-probability bounds, we show that our bounds have a better dependence on the dimension of parameters as compared to prior art. Our results further identify a phase transition phenomenon, which suggests that heavy tails can be either beneficial or harmful depending on the problem structure. We support our theory with experiments conducted in a variety of settings.
arxiv情報
著者 | Benjamin Dupuis,Umut Şimşekli |
発行日 | 2025-06-02 12:31:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google