Impact of Data Duplication on Deep Neural Network-Based Image Classifiers: Robust vs. Standard Models

要約

敵対的な攻撃に対する機械学習モデルの正確性と堅牢性は、トレーニングデータ品質、モデルアーキテクチャ、トレーニングプロセス、展開環境などの要因によって大きく影響されます。
近年、トレーニングセット、特に言語モデルの複製データがかなりの注目を集めています。
重複排除により、言語モデルのトレーニングパフォーマンスとモデルの精度の両方が向上することが示されています。
トレーニング画像分類器ディープニューラルネットワーク(DNNS)におけるデータ品質の重要性は広く認識されていますが、モデルの一般化とパフォーマンスに関するトレーニングセットにおける重複した画像の影響はほとんど注目されていません。
この論文では、このギャップに対処し、画像分類における重複の効果に関する包括的な研究を提供します。
私たちの分析は、トレーニングセットに重複した画像の存在がモデルトレーニングの効率に悪影響を与えるだけでなく、画像分類器の精度が低下する可能性があることを示しています。
重複に対する重複のこのマイナスの影響は、複製されたデータがクラス全体で不均一なものである場合、または均一でまたは不均一なものであろうと、敵対的に訓練されたモデルのトレーニングセットで発生する場合に特に顕著です。
重複したサンプルが均一な方法で選択されている場合でも、重複の量を増やしても、精度が大幅に改善されることはありません。

要約(オリジナル)

The accuracy and robustness of machine learning models against adversarial attacks are significantly influenced by factors such as training data quality, model architecture, the training process, and the deployment environment. In recent years, duplicated data in training sets, especially in language models, has attracted considerable attention. It has been shown that deduplication enhances both training performance and model accuracy in language models. While the importance of data quality in training image classifier Deep Neural Networks (DNNs) is widely recognized, the impact of duplicated images in the training set on model generalization and performance has received little attention. In this paper, we address this gap and provide a comprehensive study on the effect of duplicates in image classification. Our analysis indicates that the presence of duplicated images in the training set not only negatively affects the efficiency of model training but also may result in lower accuracy of the image classifier. This negative impact of duplication on accuracy is particularly evident when duplicated data is non-uniform across classes or when duplication, whether uniform or non-uniform, occurs in the training set of an adversarially trained model. Even when duplicated samples are selected in a uniform way, increasing the amount of duplication does not lead to a significant improvement in accuracy.

arxiv情報

著者 Alireza Aghabagherloo,Aydin Abadi,Sumanta Sarkar,Vishnu Asutosh Dasu,Bart Preneel
発行日 2025-04-17 16:01:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.IV パーマリンク