要約
最近の研究では、明示的または暗黙的に二次情報にペナルティを与える SAM のような手法が深層学習の一般化を改善できることが示されています。
ウェイト ノイズや勾配ペナルティなどの一見似たような手法では、そのような利点が得られないことがよくあります。
これらの違いが損失のヘッセ行列の構造によって説明できることを示します。
まず、ヘッセ行列の一般的な分解は、特徴の活用と特徴の探索を分離するものとして定量的に解釈できることを示します。
特徴探索は非線形モデリング誤差行列 (NME) で記述できますが、補間時に消失するため、文献では一般に無視されています。
私たちの研究は、勾配ペナルティが活性化関数の選択に敏感である理由を説明できるため、NME が実際に重要であることを示しています。
この洞察を使用して、パフォーマンスを向上させるための介入を設計します。
また、重量ノイズと勾配ペナルティの長年の同等性を疑問視する証拠も提供します。
この等価性は、NME を無視できるという前提に基づいていますが、現代のネットワークには重要な機能学習が含まれるため、この前提は当てはまりません。
特徴の探索ではなく特徴の活用を正規化すると、勾配ペナルティと同様のパフォーマンスが得られることがわかりました。
要約(オリジナル)
Recent work has shown that methods like SAM which either explicitly or implicitly penalize second order information can improve generalization in deep learning. Seemingly similar methods like weight noise and gradient penalties often fail to provide such benefits. We show that these differences can be explained by the structure of the Hessian of the loss. First, we show that a common decomposition of the Hessian can be quantitatively interpreted as separating the feature exploitation from feature exploration. The feature exploration, which can be described by the Nonlinear Modeling Error matrix (NME), is commonly neglected in the literature since it vanishes at interpolation. Our work shows that the NME is in fact important as it can explain why gradient penalties are sensitive to the choice of activation function. Using this insight we design interventions to improve performance. We also provide evidence that challenges the long held equivalence of weight noise and gradient penalties. This equivalence relies on the assumption that the NME can be ignored, which we find does not hold for modern networks since they involve significant feature learning. We find that regularizing feature exploitation but not feature exploration yields performance similar to gradient penalties.
arxiv情報
著者 | Yann N. Dauphin,Atish Agarwala,Hossein Mobahi |
発行日 | 2024-01-19 16:52:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google