Defending Our Privacy With Backdoors

要約

厳選されていない、多くの場合機密性の高い Web スクレイピング データに基づいてトレーニングされた大規模な AI モデルの急増により、プライバシーに関する重大な懸念が生じています。
懸念の 1 つは、攻撃者がプライバシー攻撃を使用してトレーニング データに関する情報を抽出できることです。
残念ながら、パフォーマンスを犠牲にすることなくモデルから特定の情報を削除する作業は簡単ではなく、困難であることがわかっています。
我々は、モデルから個人名などの個人情報を削除するバックドア攻撃に基づく、かなり簡単で効果的な防御を提案します。この研究ではテキスト エンコーダに焦点を当てます。
具体的には、戦略的にバックドアを挿入することで、機密性の高いフレーズの埋め込みを、人の名前ではなく「人」という中立的な用語の埋め込みと調整します。
私たちの実証結果は、ゼロショット分類子に対する特殊なプライバシー攻撃を使用してそのパフォーマンスを評価することにより、CLIP に対するバックドアベースの防御の有効性を実証しています。
私たちのアプローチは、バックドア攻撃に対する新しい「デュアルユース」の視点を提供するだけでなく、未管理の Web スクレイピング データでトレーニングされたモデル内で個人のプライバシーを強化する有望な手段も提供します。

要約(オリジナル)

The proliferation of large AI models trained on uncurated, often sensitive web-scraped data has raised significant privacy concerns. One of the concerns is that adversaries can extract information about the training data using privacy attacks. Unfortunately, the task of removing specific information from the models without sacrificing performance is not straightforward and has proven to be challenging. We propose a rather easy yet effective defense based on backdoor attacks to remove private information such as names of individuals from models, and focus in this work on text encoders. Specifically, through strategic insertion of backdoors, we align the embeddings of sensitive phrases with those of neutral terms-‘a person’ instead of the person’s name. Our empirical results demonstrate the effectiveness of our backdoor-based defense on CLIP by assessing its performance using a specialized privacy attack for zero-shot classifiers. Our approach provides not only a new ‘dual-use’ perspective on backdoor attacks, but also presents a promising avenue to enhance the privacy of individuals within models trained on uncurated web-scraped data.

arxiv情報

著者 Dominik Hintersdorf,Lukas Struppek,Daniel Neider,Kristian Kersting
発行日 2023-12-12 19:54:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.CV, cs.LG パーマリンク