A Comprehensive Study on Dataset Distillation: Performance, Privacy, Robustness and Fairness

要約

タイトル:データセット蒸留に関する包括的研究:パフォーマンス、プライバシー、堅牢性、公正性

要約:

– データセット蒸留とは、元のデータセットの豊富な特徴を小さなデータセットにエンコードすることを目的としたアプローチであり、ニューラルネットワークのトレーニングと関連研究の加速に有望である。
– 情報の豊かさや一般化能力の向上に取り組むためのさまざまなアプローチが提案されているが、セキュリティの観点から包括的に分析した研究がなく、潜在するリスクの体系的な理解に欠けている。
– 本研究では、現在の最新のデータセット蒸留手法を評価するために、広範な実験を実施している。メンバーシップ推論攻撃を使用して、プライバシーのリスクが残っていることを示している。
– 本研究はまた、データセット蒸留が予測を行う際にモデルの堅牢性に影響を与え、クラスの公正性を増幅する可能性があることを示している。
– 本研究は、データセット蒸留の評価のための大規模なベンチマーキングフレームワークを提供する。

要約(オリジナル)

The aim of dataset distillation is to encode the rich features of an original dataset into a tiny dataset. It is a promising approach to accelerate neural network training and related studies. Different approaches have been proposed to improve the informativeness and generalization performance of distilled images. However, no work has comprehensively analyzed this technique from a security perspective and there is a lack of systematic understanding of potential risks. In this work, we conduct extensive experiments to evaluate current state-of-the-art dataset distillation methods. We successfully use membership inference attacks to show that privacy risks still remain. Our work also demonstrates that dataset distillation can cause varying degrees of impact on model robustness and amplify model unfairness across classes when making predictions. This work offers a large-scale benchmarking framework for dataset distillation evaluation.

arxiv情報

著者 Zongxiong Chen,Jiahui Geng,Herbert Woisetschlaeger,Sonja Schimmler,Ruben Mayer,Chunming Rong
発行日 2023-05-05 08:19:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク