要約
さまざまなアプリケーションでの深層学習の台頭に伴い、トレーニング データの保護に関するプライバシーの懸念が重要な研究分野になっています。
以前の研究はシングルモーダル モデルのプライバシー リスクに焦点を当てていましたが、マルチモーダル モデル、特に CLIP のような視覚言語モデルのプライバシーを評価する新しい方法を紹介します。
提案された Identity Inference Attack (IDIA) は、同じ人物の画像でモデルをクエリすることにより、個人がトレーニング データに含まれているかどうかを明らかにします。
モデルがさまざまな可能なテキスト ラベルから選択できるようにすることで、モデルは人物を認識しているかどうか、したがってトレーニングに使用されたかどうかを明らかにします。
CLIP に関する大規模な実験では、トレーニングに使用された個人を非常に高い精度で識別できることが実証されています。
モデルが描写された個人と名前を関連付けることを学習したことを確認します。これは、敵対者によって抽出される可能性のある機密情報の存在を示唆しています。
私たちの結果は、大規模モデルでのより強力なプライバシー保護の必要性を強調し、IDIA を使用してトレーニングのためのデータの不正使用を証明し、プライバシー法を施行できることを示唆しています。
要約(オリジナル)
With the rise of deep learning in various applications, privacy concerns around the protection of training data has become a critical area of research. Whereas prior studies have focused on privacy risks in single-modal models, we introduce a novel method to assess privacy for multi-modal models, specifically vision-language models like CLIP. The proposed Identity Inference Attack (IDIA) reveals whether an individual was included in the training data by querying the model with images of the same person. Letting the model choose from a wide variety of possible text labels, the model reveals whether it recognizes the person and, therefore, was used for training. Our large-scale experiments on CLIP demonstrate that individuals used for training can be identified with very high accuracy. We confirm that the model has learned to associate names with depicted individuals, implying the existence of sensitive information that can be extracted by adversaries. Our results highlight the need for stronger privacy protection in large-scale models and suggest that IDIAs can be used to prove the unauthorized use of data for training and to enforce privacy laws.
arxiv情報
著者 | Dominik Hintersdorf,Lukas Struppek,Manuel Brack,Felix Friedrich,Patrick Schramowski,Kristian Kersting |
発行日 | 2023-02-14 13:53:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google