要約
厳選されていない、多くの場合機密性の高い Web スクレイピング データに基づいてトレーニングされた大規模な AI モデルの急増により、プライバシーに関する重大な懸念が生じています。
懸念の 1 つは、攻撃者がプライバシー攻撃を使用してトレーニング データに関する情報を抽出できることです。
残念ながら、パフォーマンスを犠牲にすることなくモデルから特定の情報を削除する作業は簡単ではなく、困難であることがわかっています。
私たちは、視覚言語モデルを最初から再トレーニングするのではなく、わずか数分間微調整することで、個人の名前や顔などの個人情報を視覚言語モデルから削除する、バックドア攻撃に基づく、かなり簡単で効果的な防御を提案します。
具体的には、テキスト エンコーダにバックドアを戦略的に挿入することで、機密性の高いフレーズの埋め込みを、実際の人の名前ではなく「人」という中立的な用語の埋め込みと調整します。
画像エンコーダーの場合、モデルから削除される個人のエンベディングを普遍的な匿名のエンベディングにマッピングします。
私たちの実証結果は、ゼロショット分類子に対する特殊なプライバシー攻撃を使用してそのパフォーマンスを評価することにより、CLIP に対するバックドアベースの防御の有効性を実証しています。
私たちのアプローチは、バックドア攻撃に対する新しい「デュアルユース」の視点を提供するだけでなく、未管理の Web スクレイピング データでトレーニングされたモデル内で個人のプライバシーを強化する有望な手段も提供します。
要約(オリジナル)
The proliferation of large AI models trained on uncurated, often sensitive web-scraped data has raised significant privacy concerns. One of the concerns is that adversaries can extract information about the training data using privacy attacks. Unfortunately, the task of removing specific information from the models without sacrificing performance is not straightforward and has proven to be challenging. We propose a rather easy yet effective defense based on backdoor attacks to remove private information such as names and faces of individuals from vision-language models by fine-tuning them for only a few minutes instead of re-training them from scratch. Specifically, through strategic insertion of backdoors into text encoders, we align the embeddings of sensitive phrases with those of neutral terms-‘a person’ instead of the person’s actual name. For image encoders, we map embeddings of individuals to be removed from the model to a universal, anonymous embedding. Our empirical results demonstrate the effectiveness of our backdoor-based defense on CLIP by assessing its performance using a specialized privacy attack for zero-shot classifiers. Our approach provides not only a new ‘dual-use’ perspective on backdoor attacks, but also presents a promising avenue to enhance the privacy of individuals within models trained on uncurated web-scraped data.
arxiv情報
著者 | Dominik Hintersdorf,Lukas Struppek,Daniel Neider,Kristian Kersting |
発行日 | 2024-02-07 14:13:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google