What Can We Learn from Unlearnable Datasets?

要約

Web スクレイピングが広く普及している時代において、学習不可能なデータセット手法は、ディープ ニューラル ネットワークの一般化を防ぎ、データ プライバシーを保護する可能性があります。
しかし、その使用を可能にしない多くの実際的な制限に加えて、データを保護する能力に疑問を投げかける多くの調査結果が得られています。
まず、学習不可能なデータセットでトレーニングされたニューラル ネットワークは、一般化には役に立たないショートカット、つまり単純なルールのみを学習すると広く信じられています。
対照的に、ネットワークは実際に、高いテストパフォーマンスを得るために再評価できる有用な機能を学習できることがわかり、画像のプライバシーが保持されていないことが示唆されます。
学習不可能なデータセットは、追加された摂動の線形分離性を通じて学習のショートカットを引き起こすとも考えられています。
反例を示し、摂動の線形分離性が必要な条件ではないことを示します。
線形分離可能な摂動に依存すべきではない理由を強調するために、ICML 2021 および ICLR 2023 で公開された学習不可能なデータセットからの学習を可能にする直交射影攻撃を提案します。私たちが提案する攻撃は、最近提案された手法よりも大幅に複雑ではありません。

要約(オリジナル)

In an era of widespread web scraping, unlearnable dataset methods have the potential to protect data privacy by preventing deep neural networks from generalizing. But in addition to a number of practical limitations that make their use unlikely, we make a number of findings that call into question their ability to safeguard data. First, it is widely believed that neural networks trained on unlearnable datasets only learn shortcuts, simpler rules that are not useful for generalization. In contrast, we find that networks actually can learn useful features that can be reweighed for high test performance, suggesting that image privacy is not preserved. Unlearnable datasets are also believed to induce learning shortcuts through linear separability of added perturbations. We provide a counterexample, demonstrating that linear separability of perturbations is not a necessary condition. To emphasize why linearly separable perturbations should not be relied upon, we propose an orthogonal projection attack which allows learning from unlearnable datasets published in ICML 2021 and ICLR 2023. Our proposed attack is significantly less complex than recently proposed techniques.

arxiv情報

著者 Pedro Sandoval-Segura,Vasu Singla,Jonas Geiping,Micah Goldblum,Tom Goldstein
発行日 2023-05-30 17:41:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク