要約
確率的勾配降下の挙動は、SGDが純粋にベイジアンの方法でフラクタル次元を説明できるフラクタル景観に効果的に拡散していることを示すことにより、ベイジアン統計に関連していることを示します。
これを行うことにより、SGDは、損失状況のフラクタル構造によって引き起こされるアクセシビリティの制約を説明する修正されたベイジアンサンプラーと見なすことができることを示します。
トレーニング中の重量の拡散を調べることにより、結果を実験的に検証します。
これらの結果は、学習プロセスを決定する要因についての洞察を提供し、SGDと純粋にベイジアンサンプリングがどのように関連しているかという問題に答えているように見えます。
要約(オリジナル)
We show that the behavior of stochastic gradient descent is related to Bayesian statistics by showing that SGD is effectively diffusion on a fractal landscape, where the fractal dimension can be accounted for in a purely Bayesian way. By doing this we show that SGD can be regarded as a modified Bayesian sampler which accounts for accessibility constraints induced by the fractal structure of the loss landscape. We verify our results experimentally by examining the diffusion of weights during training. These results offer insight into the factors which determine the learning process, and seemingly answer the question of how SGD and purely Bayesian sampling are related.
arxiv情報
著者 | Max Hennick,Stijn De Baerdemacker |
発行日 | 2025-03-28 14:38:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google