Have You Poisoned My Data? Defending Neural Networks against Data Poisoning

要約

トレーニング データが前例のないほど利用可能になったことにより、近年の強力なニューラル ネットワークの急速な開発が促進されました。
ただし、このような大量のデータの必要性は、ポイズニング攻撃などの潜在的な脅威につながります。これは、特定の敵対的な目標を達成するために学習されたモデルを侵害することを目的としたトレーニング データの敵対的な操作です。
この論文では、クリーンラベル ポイズニング攻撃に対する防御策を調査し、転移学習設定でポイズニングされたデータポイントを検出およびフィルタリングするための新しいアプローチを提案します。
データポイントの新しい特性ベクトル表現を定義し、それがデータ分布の固有の特性を効果的に捉えていることを示します。
実験的な解析を通じて、有効な毒物が特性ベクトル空間内のクリーンな点からうまく区別できることを実証します。
私たちは提案したアプローチを徹底的に評価し、複数のアーキテクチャ、データセット、毒予算を使用して既存の最先端の防御と比較します。
私たちの評価では、すべての実験設定において、防御率と最終的に訓練されたモデルのパフォーマンスにおいて、私たちの提案が既存のアプローチを上回っていることが示されています。

要約(オリジナル)

The unprecedented availability of training data fueled the rapid development of powerful neural networks in recent years. However, the need for such large amounts of data leads to potential threats such as poisoning attacks: adversarial manipulations of the training data aimed at compromising the learned model to achieve a given adversarial goal. This paper investigates defenses against clean-label poisoning attacks and proposes a novel approach to detect and filter poisoned datapoints in the transfer learning setting. We define a new characteristic vector representation of datapoints and show that it effectively captures the intrinsic properties of the data distribution. Through experimental analysis, we demonstrate that effective poisons can be successfully differentiated from clean points in the characteristic vector space. We thoroughly evaluate our proposed approach and compare it to existing state-of-the-art defenses using multiple architectures, datasets, and poison budgets. Our evaluation shows that our proposal outperforms existing approaches in defense rate and final trained model performance across all experimental settings.

arxiv情報

著者 Fabio De Gaspari,Dorjan Hitaj,Luigi V. Mancini
発行日 2024-03-20 11:50:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク