Why is SAM Robust to Label Noise?

要約

シャープネスを考慮した最小化(SAM)は、自然画像や言語タスクにおいて最先端の性能を達成したことで最も知られている。しかし、その最も顕著な改善(数十%)は、むしろラベルノイズが存在する場合である。SAMのラベルノイズに対する頑健性を理解するには、損失ランドスケープの「より平坦な」領域にある最小値の頑健性を特徴付けることから離れる必要がある。特に、ラベルノイズ下での性能のピークは、損失が収束する遥か前に、早期停止で発生する。我々はSAMのロバスト性を2つの効果に分解する:1つはロジット項の変化によって誘発されるもの、もう1つはネットワークのヤコビアンの変化によって誘発されるものである。1つ目は線形ロジスティック回帰で観察され、SAMはきれいな例からの勾配寄与をアップウェイトすることが証明されている。この明示的な重み付けアップはニューラルネットワークでも観察できるが、この効果を除去するためにSAMに介入して修正すると、驚くべきことに性能の目に見える劣化は見られない。我々は、より深いネットワークにおけるSAMの効果は、SAMがネットワークのヤコビアンに与える効果によって完全に説明できると推論する。我々は、2層線形ネットワークにおいて、このヤコビアン効果によって引き起こされる暗黙の正則化を理論的に導出する。我々の分析から動機づけられ、これらの正則化効果を明示的に誘導するSAMの安価な代替手段が、実世界のデータセットで訓練された深層ネットワークにおいて、その利点をほぼ回復することが分かる。

要約(オリジナル)

Sharpness-Aware Minimization (SAM) is most known for achieving state-of the-art performances on natural image and language tasks. However, its most pronounced improvements (of tens of percent) is rather in the presence of label noise. Understanding SAM’s label noise robustness requires a departure from characterizing the robustness of minimas lying in ‘flatter’ regions of the loss landscape. In particular, the peak performance under label noise occurs with early stopping, far before the loss converges. We decompose SAM’s robustness into two effects: one induced by changes to the logit term and the other induced by changes to the network Jacobian. The first can be observed in linear logistic regression where SAM provably up-weights the gradient contribution from clean examples. Although this explicit up-weighting is also observable in neural networks, when we intervene and modify SAM to remove this effect, surprisingly, we see no visible degradation in performance. We infer that SAM’s effect in deeper networks is instead explained entirely by the effect SAM has on the network Jacobian. We theoretically derive the implicit regularization induced by this Jacobian effect in two layer linear networks. Motivated by our analysis, we see that cheaper alternatives to SAM that explicitly induce these regularization effects largely recover the benefits in deep networks trained on real-world datasets.

arxiv情報

著者 Christina Baek,Zico Kolter,Aditi Raghunathan
発行日 2024-05-06 17:52:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク