Memorization Through the Lens of Curvature of Loss Function Around Samples

要約

ディープ ニューラル ネットワークは過剰にパラメータ化されており、トレーニングの対象となるデータセットを容易に過剰適合させます。
極端な場合、これらのネットワークは完全にランダム化されたラベルを持つトレーニング セットを記憶できることが示されています。
私たちは、サンプルの記憶の尺度として、トレーニング エポックにわたって平均化された、各トレーニング サンプルの周囲の損失関数の曲率を使用することを提案します。
このメトリクスを使用して、一般的な画像データセット内のさまざまなサンプルの一般化と記憶の特性を研究し、このメトリクスが記憶統計を定性的および定量的に適切に捕捉していることを示します。
まず、曲率の高いサンプルが、記憶される可能性が最も高い、ロングテールのサンプル、ラベルが間違っているサンプル、または矛盾するサンプルに視覚的に対応していることを示します。
この分析は、私たちの知る限り、CIFAR100 および ImageNet データセット上の新しい障害モード、つまり、異なるラベルを持つ重複画像の障害モードを見つけるのに役立ちます。
2 つの方法でスコアの妥当性を定量的に確認します。
まず、Feldman と Zhang (2020) によって発表された暗記スコアとの高いコサイン類似性を示すことで、独立して包括的に計算されたベースラインに対してスコアを検証します。
次に、ネットワークに記憶されている破損したサンプルを注入し、これらが高い曲率で学習されることを示します。
この目的を達成するために、データセットのランダムなサブセットに合成的に誤ったラベルを付けます。
ネットワークをそれにオーバーフィットさせ、曲率によるソートにより、破損したサンプルを識別するための高い AUROC 値が得られることを示します。
私たちの方法のさらなる利点は、ベースラインによってトレーニングされる数千のネットワークとは対照的に、単一のネットワークのみをトレーニングする必要があるため、ベースラインが識別できない前述の障害モードを捕捉しながら、スケーラブルであることです。

要約(オリジナル)

Deep neural networks are over-parameterized and easily overfit the datasets they train on. In the extreme case, it has been shown that these networks can memorize a training set with fully randomized labels. We propose using the curvature of loss function around each training sample, averaged over training epochs, as a measure of memorization of the sample. We use this metric to study the generalization versus memorization properties of different samples in popular image datasets and show that it captures memorization statistics well, both qualitatively and quantitatively. We first show that the high curvature samples visually correspond to long-tailed, mislabeled, or conflicting samples, those that are most likely to be memorized. This analysis helps us find, to the best of our knowledge, a novel failure mode on the CIFAR100 and ImageNet datasets: that of duplicated images with differing labels. Quantitatively, we corroborate the validity of our scores via two methods. First, we validate our scores against an independent and comprehensively calculated baseline, by showing high cosine similarity with the memorization scores released by Feldman and Zhang (2020). Second, we inject corrupted samples which are memorized by the network, and show that these are learned with high curvature. To this end, we synthetically mislabel a random subset of the dataset. We overfit a network to it and show that sorting by curvature yields high AUROC values for identifying the corrupted samples. An added advantage of our method is that it is scalable, as it requires training only a single network as opposed to the thousands trained by the baseline, while capturing the aforementioned failure mode that the baseline fails to identify.

arxiv情報

著者 Isha Garg,Deepak Ravikumar,Kaushik Roy
発行日 2023-10-02 03:50:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク