Per-Example Gradient Regularization Improves Learning Signals from Noisy Data


タイトル:Per-Example Gradient Regularization Improves Learning Signals from Noisy Data

– Gradient Regularizationは、勾配降下中のフラットな最小値を推進するための高度に効果的な技術である。
– Gradient Regularizationは、ノイズのある変動に対して、モデルの耐久性を大幅に高め、テストエラーを減らすことができるという経験的な証拠がある。
– この論文では、Per-example Gradient Regularization(PEGR)を探求し、効果的にテストエラーとノイズ変動に対する耐性を向上させることを示す理論解析を提示する。
– 具体的には、\citet{cao2022benign}からのシグナル・ノイズのデータモデルを採用し、PEGRが信号を効果的に学習する一方でノイズを抑制することができることを示す。
– 一方、標準的な勾配降下は、信号とノイズを区別するのに苦労し、サブオプティマルな汎化パフォーマンスを引き起こす。
– PEGRは、パターン学習の分散をペナルティとして課して、トレーニングデータからのノイズの記憶を効果的に抑制するという解析が明らかになった。
– これらの発見は、深層学習のトレーニングで分散制御が重要であることを強調し、より効果的なトレーニング方法を開発するための有用な洞察を提供する。


Gradient regularization, as described in \citet{barrett2021implicit}, is a highly effective technique for promoting flat minima during gradient descent. Empirical evidence suggests that this regularization technique can significantly enhance the robustness of deep learning models against noisy perturbations, while also reducing test error. In this paper, we explore the per-example gradient regularization (PEGR) and present a theoretical analysis that demonstrates its effectiveness in improving both test error and robustness against noise perturbations. Specifically, we adopt a signal-noise data model from \citet{cao2022benign} and show that PEGR can learn signals effectively while suppressing noise. In contrast, standard gradient descent struggles to distinguish the signal from the noise, leading to suboptimal generalization performance. Our analysis reveals that PEGR penalizes the variance of pattern learning, thus effectively suppressing the memorization of noises from the training data. These findings underscore the importance of variance control in deep learning training and offer useful insights for developing more effective training approaches.


著者 Xuran Meng,Yuan Cao,Difan Zou
発行日 2023-03-31 10:08:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク