Defending Our Privacy With Backdoors

要約

厳選されていない、多くの場合機密性の高い Web スクレイピング データに基づいてトレーニングされた大規模な AI モデルの急増により、プライバシーに関する重大な懸念が生じています。
懸念の 1 つは、攻撃者がプライバシー攻撃を使用してトレーニング データに関する情報を抽出できることです。
残念ながら、パフォーマンスを犠牲にすることなくモデルから特定の情報を削除する作業は簡単ではなく、困難であることがわかっています。
私たちは、視覚言語モデルを最初から再トレーニングするのではなく、ほんの数分間微調整するだけで、個人の名前や顔などの個人情報を視覚言語モデルから削除する、バックドア攻撃に基づく、かなり簡単で効果的な防御方法を提案します。
具体的には、テキスト エンコーダにバックドアを戦略的に挿入することで、機密性の高いフレーズの埋め込みを、実際の人の名前ではなく「人」という中立的な用語の埋め込みに合わせます。
画像エンコーダーの場合、モデルから削除される個人のエンベディングを普遍的な匿名のエンベディングにマッピングします。
私たちの広範な実験評価の結果は、ゼロショット分類子に対する特殊なプライバシー攻撃を使用してそのパフォーマンスを評価することにより、CLIP に対するバックドアベースの防御の有効性を実証しています。
私たちのアプローチは、バックドア攻撃に対する新しい「デュアルユース」の視点を提供し、未管理の Web スクレイピング データでトレーニングされたモデル内で個人のプライバシーを強化する有望な手段を提供します。

要約(オリジナル)

The proliferation of large AI models trained on uncurated, often sensitive web-scraped data has raised significant privacy concerns. One of the concerns is that adversaries can extract information about the training data using privacy attacks. Unfortunately, the task of removing specific information from the models without sacrificing performance is not straightforward and has proven to be challenging. We propose a rather easy yet effective defense based on backdoor attacks to remove private information, such as names and faces of individuals, from vision-language models by fine-tuning them for only a few minutes instead of re-training them from scratch. Specifically, by strategically inserting backdoors into text encoders, we align the embeddings of sensitive phrases with those of neutral terms-‘a person’ instead of the person’s actual name. For image encoders, we map individuals’ embeddings to be removed from the model to a universal, anonymous embedding. The results of our extensive experimental evaluation demonstrate the effectiveness of our backdoor-based defense on CLIP by assessing its performance using a specialized privacy attack for zero-shot classifiers. Our approach provides a new ‘dual-use’ perspective on backdoor attacks and presents a promising avenue to enhance the privacy of individuals within models trained on uncurated web-scraped data.

arxiv情報

著者 Dominik Hintersdorf,Lukas Struppek,Daniel Neider,Kristian Kersting
発行日 2024-07-23 14:39:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.CV, cs.LG パーマリンク