要約
私たちは、ディープラーニングにおけるいくつかの現象を統合して明確にするために、重みのスペクトルダイナミクス(最適化中の特異値とベクトルの挙動)を中心とした経験的アプローチを提案します。
私たちは、小規模な「グロッキング」から、ConvNets による画像分類、UNets による画像生成、LSTM による音声認識、Transformers による言語モデリングなどの大規模なタスクに至るまで、さまざまな実験にわたる最適化における一貫したバイアスを特定します。
また、実際のシステムにおいても、重み減衰がノルム正則化機能としての役割を超えてこのバイアスを強化することも示します。
さらに、これらのスペクトルダイナミクスが記憶ネットワークと一般化ネットワークを区別することを示し、この長年の難問に新しい視点を提供します。
さらに、スペクトルダイナミクスを活用して、線形モード接続を介した、パフォーマンスの良い疎なサブネットワーク (宝くじ) の出現と損失表面の構造を調査します。
私たちの発見は、スペクトルダイナミクスが、さまざまな設定にわたるニューラルネットワークの動作をよりよく理解するための一貫したフレームワークを提供することを示唆しています。
要約(オリジナル)
We propose an empirical approach centered on the spectral dynamics of weights — the behavior of singular values and vectors during optimization — to unify and clarify several phenomena in deep learning. We identify a consistent bias in optimization across various experiments, from small-scale “grokking” to large-scale tasks like image classification with ConvNets, image generation with UNets, speech recognition with LSTMs, and language modeling with Transformers. We also demonstrate that weight decay enhances this bias beyond its role as a norm regularizer, even in practical systems. Moreover, we show that these spectral dynamics distinguish memorizing networks from generalizing ones, offering a novel perspective on this longstanding conundrum. Additionally, we leverage spectral dynamics to explore the emergence of well-performing sparse subnetworks (lottery tickets) and the structure of the loss surface through linear mode connectivity. Our findings suggest that spectral dynamics provide a coherent framework to better understand the behavior of neural networks across diverse settings.
arxiv情報
著者 | David Yunis,Kumar Kshitij Patel,Samuel Wheeler,Pedro Savarese,Gal Vardi,Karen Livescu,Michael Maire,Matthew R. Walter |
発行日 | 2024-08-21 17:48:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google