要約
大規模ビジョン言語モデル (VLLM) は、さまざまなアプリケーション シナリオにわたってマルチモーダル タスクを処理するための有望な機能を示します。
しかし、その出現により、トレーニング データセットに個人の写真や医療記録などの機密情報が含まれる可能性があるため、データ セキュリティに関する重大な懸念も生じます。
VLLM で不適切に使用されたデータの検出は、標準化されたデータセットと適切な方法論が不足していることが主な原因で、依然として重要かつ未解決の問題です。
この研究では、トレーニング データの検出を容易にするために、さまざまな VLLM に合わせて調整された最初のメンバーシップ推論攻撃 (MIA) ベンチマークを紹介します。
次に、トークンレベルの画像検出用に特別に設計された新しい MIA パイプラインを提案します。
最後に、MaxR\’enyi-K% と呼ばれる新しいメトリクスを紹介します。これはモデル出力の信頼性に基づいており、テキスト データと画像データの両方に適用されます。
私たちは、私たちの活動によって、VLLM の文脈における MIA の理解と方法論が深まると信じています。
コードとデータセットは https://github.com/LIONS-EPFL/VL-MIA で入手できます。
要約(オリジナル)
Large vision-language models (VLLMs) exhibit promising capabilities for processing multi-modal tasks across various application scenarios. However, their emergence also raises significant data security concerns, given the potential inclusion of sensitive information, such as private photos and medical records, in their training datasets. Detecting inappropriately used data in VLLMs remains a critical and unresolved issue, mainly due to the lack of standardized datasets and suitable methodologies. In this study, we introduce the first membership inference attack (MIA) benchmark tailored for various VLLMs to facilitate training data detection. Then, we propose a novel MIA pipeline specifically designed for token-level image detection. Lastly, we present a new metric called MaxR\’enyi-K%, which is based on the confidence of the model output and applies to both text and image data. We believe that our work can deepen the understanding and methodology of MIAs in the context of VLLMs. Our code and datasets are available at https://github.com/LIONS-EPFL/VL-MIA.
arxiv情報
著者 | Zhan Li,Yongtao Wu,Yihang Chen,Francesco Tonin,Elias Abad Rocamora,Volkan Cevher |
発行日 | 2024-11-05 08:35:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google