The Phantom Menace: Unmasking Privacy Leakages in Vision-Language Models

要約

視覚言語モデル(VLMs)は、視覚とテキスト理解を組み合わせることで、画像のキャプションを生成したり、様々なドメインの視覚的な質問に答えたりといった多様なタスクに適している。しかし、これらの能力は、ウェブからクロールされた大量の未修正データに対する学習によって構築される。後者には、VLMが記憶して漏洩する可能性のある機密情報が含まれている可能性があり、プライバシーに関する重大な懸念が生じる。本稿では、これらの脆弱性が存在するかどうかを、ID漏えいに焦点を当てて評価する。(i)VLMは、視覚と言語のアライメントやファインチューニングが匿名化されたデータを使用している場合でも、アイデンティティ情報を漏洩する。これらの知見は、VLMを展開する際に強固なプライバシー保護戦略が緊急に必要であることを強調している。これらのリスクを軽減するためには、倫理意識と責任ある開発慣行が不可欠である。

要約(オリジナル)

Vision-Language Models (VLMs) combine visual and textual understanding, rendering them well-suited for diverse tasks like generating image captions and answering visual questions across various domains. However, these capabilities are built upon training on large amount of uncurated data crawled from the web. The latter may include sensitive information that VLMs could memorize and leak, raising significant privacy concerns. In this paper, we assess whether these vulnerabilities exist, focusing on identity leakage. Our study leads to three key findings: (i) VLMs leak identity information, even when the vision-language alignment and the fine-tuning use anonymized data; (ii) context has little influence on identity leakage; (iii) simple, widely used anonymization techniques, like blurring, are not sufficient to address the problem. These findings underscore the urgent need for robust privacy protection strategies when deploying VLMs. Ethical awareness and responsible development practices are essential to mitigate these risks.

arxiv情報

著者 Simone Caldarella,Massimiliano Mancini,Elisa Ricci,Rahaf Aljundi
発行日 2024-08-02 12:36:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク