要約
さまざまなアプリケーションでのディープラーニングの台頭により、トレーニング データの保護に関するプライバシーの懸念が重要な研究分野になっています。
これまでの研究ではシングルモーダル モデルにおけるプライバシー リスクに焦点を当ててきましたが、マルチモーダル モデル、特に CLIP のような視覚言語モデルのプライバシーを評価する新しい方法を紹介します。
提案されているアイデンティティ推論攻撃 (IDIA) は、同じ人物の画像を使用してモデルにクエリを実行することで、トレーニング データに個人が含まれているかどうかを明らかにします。
モデルに考えられるさまざまなテキスト ラベルから選択させることで、モデルがその人を認識しているかどうか、したがってトレーニングに使用されたかどうかが明らかになります。
CLIP に関する大規模な実験では、トレーニングに使用された個人を非常に高い精度で識別できることが実証されました。
モデルが名前と描写された個人を関連付けることを学習し、敵によって抽出される可能性のある機密情報の存在を暗示していることを確認します。
私たちの結果は、大規模モデルにおけるより強力なプライバシー保護の必要性を強調しており、トレーニング用のデータの不正使用を証明し、プライバシー法の執行に IDIA を使用できることを示唆しています。
要約(オリジナル)
With the rise of deep learning in various applications, privacy concerns around the protection of training data has become a critical area of research. Whereas prior studies have focused on privacy risks in single-modal models, we introduce a novel method to assess privacy for multi-modal models, specifically vision-language models like CLIP. The proposed Identity Inference Attack (IDIA) reveals whether an individual was included in the training data by querying the model with images of the same person. Letting the model choose from a wide variety of possible text labels, the model reveals whether it recognizes the person and, therefore, was used for training. Our large-scale experiments on CLIP demonstrate that individuals used for training can be identified with very high accuracy. We confirm that the model has learned to associate names with depicted individuals, implying the existence of sensitive information that can be extracted by adversaries. Our results highlight the need for stronger privacy protection in large-scale models and suggest that IDIAs can be used to prove the unauthorized use of data for training and to enforce privacy laws.
arxiv情報
著者 | Dominik Hintersdorf,Lukas Struppek,Manuel Brack,Felix Friedrich,Patrick Schramowski,Kristian Kersting |
発行日 | 2023-05-30 14:42:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google