Privacy-Aware Visual Language Models

要約

このホワイト ペーパーは、ビジュアル言語モデル (VLM) がプライバシーに関わる情報をどのように処理するかについての理解を進めることを目的としています。これは、これらのテクノロジが日常生活に不可欠になるにつれて、重大な懸念事項となります。
この目的を達成するために、パスポートや指紋などの 8 つの機密カテゴリの画像を含む新しいベンチマーク PrivBench を導入します。
このベンチマークで 10 個の最先端の VLM を評価したところ、プライバシーに対する理解が一般的に限られていることが観察され、モデルの改善が必要な重要な領域が浮き彫りになりました。
これに基づいて、VLM に視覚的プライバシーに関する知識を提供することを目的とした新しい命令調整データセットである PrivTune を紹介します。
この小さなデータセットで 2 つの事前トレーニング済み VLM、TinyLLaVa と MiniGPT-v2 を調整することで、機密コンテンツを認識する能力が大幅に向上し、GPT4-V をも上回るパフォーマンスを実現しました。
同時に、プライバシー チューニングは、VQA などの標準ベンチマークにおける VLM のパフォーマンスに最小限の影響しか与えないことを示します。
全体として、このホワイトペーパーは、現実世界のデータを安全に処理する上で VLM を効果的にするための重要な課題を示し、プライバシーを意識した VLM の構築に向けた最初の一歩となるシンプルなレシピを提供します。

要約(オリジナル)

This paper aims to advance our understanding of how Visual Language Models (VLMs) handle privacy-sensitive information, a crucial concern as these technologies become integral to everyday life. To this end, we introduce a new benchmark PrivBench, which contains images from 8 sensitive categories such as passports, or fingerprints. We evaluate 10 state-of-the-art VLMs on this benchmark and observe a generally limited understanding of privacy, highlighting a significant area for model improvement. Based on this we introduce PrivTune, a new instruction-tuning dataset aimed at equipping VLMs with knowledge about visual privacy. By tuning two pretrained VLMs, TinyLLaVa and MiniGPT-v2, on this small dataset, we achieve strong gains in their ability to recognize sensitive content, outperforming even GPT4-V. At the same time, we show that privacy-tuning only minimally affects the VLMs performance on standard benchmarks such as VQA. Overall, this paper lays out a crucial challenge for making VLMs effective in handling real-world data safely and provides a simple recipe that takes the first step towards building privacy-aware VLMs.

arxiv情報

著者 Laurens Samson,Nimrod Barazani,Sennay Ghebreab,Yuki M. Asano
発行日 2024-05-27 17:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク