The Double-Edged Sword of Implicit Bias: Generalization vs. Robustness in ReLU Networks

要約

この作業では、ReLUネットワークの一般化と敵対的ロバスト性に対する勾配フローの暗黙のバイアスの影響を研究します。
データがクラスターで構成され、クラスター平均間の相関が小さい設定に焦点を当て、2 層の ReLU ネットワークでは、勾配フローが、よく一般化するソリューションに偏っているが、敵対的な例に対して非常に脆弱であることを示します。
ネットワークにトレーニング例よりも多くのパラメーターがある場合でも、結果は維持されます。
このような過剰にパラメータ化された設定では有害なオーバーフィッティングの可能性があるにもかかわらず、勾配流の暗黙のバイアスがそれを防ぐことを証明します。
ただし、暗黙のバイアスは、データに適合する堅牢なネットワークが存在する場合でも、堅牢でないソリューション (小さな敵対的な $\ell_2$ 摂動の影響を受けやすい) にもつながります。

要約(オリジナル)

In this work, we study the implications of the implicit bias of gradient flow on generalization and adversarial robustness in ReLU networks. We focus on a setting where the data consists of clusters and the correlations between cluster means are small, and show that in two-layer ReLU networks gradient flow is biased towards solutions that generalize well, but are highly vulnerable to adversarial examples. Our results hold even in cases where the network has many more parameters than training examples. Despite the potential for harmful overfitting in such overparameterized settings, we prove that the implicit bias of gradient flow prevents it. However, the implicit bias also leads to non-robust solutions (susceptible to small adversarial $\ell_2$-perturbations), even though robust networks that fit the data exist.

arxiv情報

著者 Spencer Frei,Gal Vardi,Peter L. Bartlett,Nathan Srebro
発行日 2023-03-02 18:14:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク