要約
視覚言語モデル (VLM) は、視覚的理解とテキストによる理解を組み合わせ、画像キャプションの生成やさまざまな領域にわたる視覚的な質問への回答など、さまざまなタスクに適しています。
ただし、これらの機能は、Web からクロールされた大量の未管理のデータのトレーニングに基づいて構築されています。
後者には、VLM が記憶して漏洩する可能性のある機密情報が含まれる可能性があり、プライバシーに関する重大な懸念が生じます。
このペーパーでは、ID 漏洩に焦点を当てて、これらの脆弱性が存在するかどうかを評価します。
私たちの研究は 3 つの重要な発見につながりました。(i) 視覚と言語の調整と微調整で匿名化されたデータが使用されている場合でも、VLM は ID 情報を漏洩します。
(ii) コンテキストは ID 漏洩にほとんど影響を与えません。
(iii) ぼかし処理のような、単純で広く使用されている匿名化技術では、問題に対処するには十分ではありません。
これらの調査結果は、VLM を展開する際に堅牢なプライバシー保護戦略が緊急に必要であることを強調しています。
これらのリスクを軽減するには、倫理意識と責任ある開発実践が不可欠です。
要約(オリジナル)
Vision-Language Models (VLMs) combine visual and textual understanding, rendering them well-suited for diverse tasks like generating image captions and answering visual questions across various domains. However, these capabilities are built upon training on large amount of uncurated data crawled from the web. The latter may include sensitive information that VLMs could memorize and leak, raising significant privacy concerns. In this paper, we assess whether these vulnerabilities exist, focusing on identity leakage. Our study leads to three key findings: (i) VLMs leak identity information, even when the vision-language alignment and the fine-tuning use anonymized data; (ii) context has little influence on identity leakage; (iii) simple, widely used anonymization techniques, like blurring, are not sufficient to address the problem. These findings underscore the urgent need for robust privacy protection strategies when deploying VLMs. Ethical awareness and responsible development practices are essential to mitigate these risks.
arxiv情報
著者 | Simone Caldarella,Massimiliano Mancini,Elisa Ricci,Rahaf Aljundi |
発行日 | 2024-08-19 13:35:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google