Defending Our Privacy With Backdoors


厳選されていない、多くの場合機密性の高い Web スクレイピング データに基づいてトレーニングされた大規模な AI モデルの急増により、プライバシーに関する重大な懸念が生じています。
懸念の 1 つは、攻撃者がプライバシー攻撃を使用してトレーニング データに関する情報を抽出できることです。
具体的には、テキスト エンコーダにバックドアを戦略的に挿入することで、機密性の高いフレーズの埋め込みを、実際の人の名前ではなく「人」という中立的な用語の埋め込みと調整します。
私たちの実証結果は、ゼロショット分類子に対する特殊なプライバシー攻撃を使用してそのパフォーマンスを評価することにより、CLIP に対するバックドアベースの防御の有効性を実証しています。
私たちのアプローチは、バックドア攻撃に対する新しい「デュアルユース」の視点を提供するだけでなく、未管理の Web スクレイピング データでトレーニングされたモデル内で個人のプライバシーを強化する有望な手段も提供します。


The proliferation of large AI models trained on uncurated, often sensitive web-scraped data has raised significant privacy concerns. One of the concerns is that adversaries can extract information about the training data using privacy attacks. Unfortunately, the task of removing specific information from the models without sacrificing performance is not straightforward and has proven to be challenging. We propose a rather easy yet effective defense based on backdoor attacks to remove private information such as names and faces of individuals from vision-language models by fine-tuning them for only a few minutes instead of re-training them from scratch. Specifically, through strategic insertion of backdoors into text encoders, we align the embeddings of sensitive phrases with those of neutral terms-‘a person’ instead of the person’s actual name. For image encoders, we map embeddings of individuals to be removed from the model to a universal, anonymous embedding. Our empirical results demonstrate the effectiveness of our backdoor-based defense on CLIP by assessing its performance using a specialized privacy attack for zero-shot classifiers. Our approach provides not only a new ‘dual-use’ perspective on backdoor attacks, but also presents a promising avenue to enhance the privacy of individuals within models trained on uncurated web-scraped data.


著者 Dominik Hintersdorf,Lukas Struppek,Daniel Neider,Kristian Kersting
発行日 2024-02-07 14:13:05+00:00
カテゴリー: cs.CL, cs.CR, cs.CV, cs.LG パーマリンク