Robust Data Pruning: Uncovering and Overcoming Implicit Bias

要約

モデルが非常にデータを大量に消費する時代では、深層学習の膨大なコストを軽減するには、トレーニング データを慎重に選択することが不可欠です。
データ プルーニングは、データセットから冗長なサンプルや有益でないサンプルを削除することで解決策を提供します。これにより、収束が速くなり、ニューラル スケーリング則が改善されます。
ただし、トレーニングされたモデルの分類バイアスに対するその影響についてはほとんど知られていません。
私たちは、この効果に関する最初の体系的な研究を実施し、既存のデータ枝刈りアルゴリズムが非常に偏った分類器を生成する可能性があることを明らかにしました。
同時に、適切なクラス比でランダムにデータを枝刈りすることで、最悪クラスのパフォーマンスを改善できる可能性があると主張します。
私たちは、プルーニングに対する「公平性を意識した」アプローチを提案し、標準的なコンピューター ビジョン ベンチマークでそのパフォーマンスを実証します。
既存のアルゴリズムとは対照的に、私たちが提案する方法は、データセットからより多くのプルーニングを行うにつれて、平均パフォーマンスの許容範囲内の低下でロバスト性を向上させ続けます。
我々のアルゴリズムをさらに動機付け、我々の発見を裏付けるために、混合ガウスにおける分類リスクの理論的分析を提示します。

要約(オリジナル)

In the era of exceptionally data-hungry models, careful selection of the training data is essential to mitigate the extensive costs of deep learning. Data pruning offers a solution by removing redundant or uninformative samples from the dataset, which yields faster convergence and improved neural scaling laws. However, little is known about its impact on classification bias of the trained models. We conduct the first systematic study of this effect and reveal that existing data pruning algorithms can produce highly biased classifiers. At the same time, we argue that random data pruning with appropriate class ratios has potential to improve the worst-class performance. We propose a ‘fairness-aware’ approach to pruning and empirically demonstrate its performance on standard computer vision benchmarks. In sharp contrast to existing algorithms, our proposed method continues improving robustness at a tolerable drop of average performance as we prune more from the datasets. We present theoretical analysis of the classification risk in a mixture of Gaussians to further motivate our algorithm and support our findings.

arxiv情報

著者 Artem Vysogorets,Kartik Ahuja,Julia Kempe
発行日 2024-04-08 14:55:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク