Deep Learning on a Data Diet: Finding Important Examples Early in Training

要約

深層学習における最近の成功は、これまで以上に大規模なデータセットで、ますます過剰パラメータ化されたネットワークをトレーニングすることによって部分的に推進されています。
したがって、次の質問をするのは自然なことです: どのくらいのデータが余分なのか、どの例が一般化にとって重要なのか、そしてそれらをどのように見つけるのか?
この作業では、標準的な視覚データセットでは、いくつかの重みの初期化で平均化された単純なスコアを使用して、トレーニングの非常に早い段階で重要な例を特定できるという印象的な観察を行います。
このような 2 つのスコア (Gradient Normed (GraNd) スコアと Error L2-Norm (EL2N) スコア) を提案し、テストの精度を犠牲にすることなくトレーニング データのかなりの部分を切り捨てることで、さまざまなアーキテクチャとデータセットでの有効性を実証します。
実際、トレーニングのいくつかのエポックで計算された EL2N スコアを使用すると、CIFAR10 トレーニング セットの半分を削減しながら、テストの精度をわずかに向上させることができます。
さらに、特定のデータセットの場合、1 つのアーキテクチャまたはハイパーパラメータ構成の EL2N スコアが他の構成に一般化されます。
トレーニングの過程でめったに忘れられない例を破棄してデータを整理する最近の作業と比較して、私たちのスコアはトレーニングの早い段階でローカル情報のみを使用します。
また、スコアを使用してノイズの多い例を検出し、重要な例のレンズを通してトレーニング ダイナミクスを研究します。データ分布がどのように損失面を形成するかを調査し、トレーニングで比較的安定しているモデルのデータ表現の部分空間を特定します。

要約(オリジナル)

Recent success in deep learning has partially been driven by training increasingly overparametrized networks on ever larger datasets. It is therefore natural to ask: how much of the data is superfluous, which examples are important for generalization, and how do we find them? In this work, we make the striking observation that, in standard vision datasets, simple scores averaged over several weight initializations can be used to identify important examples very early in training. We propose two such scores — the Gradient Normed (GraNd) and the Error L2-Norm (EL2N) scores — and demonstrate their efficacy on a range of architectures and datasets by pruning significant fractions of training data without sacrificing test accuracy. In fact, using EL2N scores calculated a few epochs into training, we can prune half of the CIFAR10 training set while slightly improving test accuracy. Furthermore, for a given dataset, EL2N scores from one architecture or hyperparameter configuration generalize to other configurations. Compared to recent work that prunes data by discarding examples that are rarely forgotten over the course of training, our scores use only local information early in training. We also use our scores to detect noisy examples and study training dynamics through the lens of important examples — we investigate how the data distribution shapes the loss surface and identify subspaces of the model’s data representation that are relatively stable over training.

arxiv情報

著者 Mansheej Paul,Surya Ganguli,Gintare Karolina Dziugaite
発行日 2023-03-28 13:51:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク