要約
自己教師の学習(SSL)ビジョンエンコーダーは、高品質の画像表現を学習するため、大型ビジョン言語モデル(LVLMS)のビジョンモダリティの開発の重要な部分になりました。
このようなエンコーダーのトレーニングのコストが高いため、事前に訓練されたエンコーダーは広く共有され、多くのLVLMに展開されています。
この実用的なシナリオの下で、単にビジョンエンコーダーを妥協することにより、これらのLVLMに重要な視覚幻覚を誘導できるという新しいバックドアの脅威を明らかにします。
これらのエンコーダーの共有と再利用により、多くの下流のLVLMはエンコーダーからバックドアの動作を継承し、広範囲にわたるバックドアにつながる可能性があります。
この作業では、新しいトリガー最適化とバックドア学習技術を備えたLVLMSのSSL Visionエンコーダーのこの脆弱性を活用する最初の方法であるBadvisionを提案します。
8つのベンチマークにまたがる2種類のSSLエンコーダーとLVLMのBadVisionを評価します。
BadVisionは、99%以上の攻撃成功率でLVLMSを攻撃者から選択した幻覚に効果的に駆動し、ステルス性を維持しながら77.6%の相対的な視覚理解エラーを引き起こすことを示します。
SOTAバックドア検出方法は、攻撃を効果的に検出できません。
要約(オリジナル)
Self-supervised learning (SSL) vision encoders learn high-quality image representations and thus have become a vital part of developing vision modality of large vision language models (LVLMs). Due to the high cost of training such encoders, pre-trained encoders are widely shared and deployed into many LVLMs, which are security-critical or bear societal significance. Under this practical scenario, we reveal a new backdoor threat that significant visual hallucinations can be induced into these LVLMs by merely compromising vision encoders. Because of the sharing and reuse of these encoders, many downstream LVLMs may inherit backdoor behaviors from encoders, leading to widespread backdoors. In this work, we propose BadVision, the first method to exploit this vulnerability in SSL vision encoders for LVLMs with novel trigger optimization and backdoor learning techniques. We evaluate BadVision on two types of SSL encoders and LVLMs across eight benchmarks. We show that BadVision effectively drives the LVLMs to attacker-chosen hallucination with over 99% attack success rate, causing a 77.6% relative visual understanding error while maintaining the stealthiness. SoTA backdoor detection methods cannot detect our attack effectively.
arxiv情報
著者 | Zhaoyi Liu,Huan Zhang |
発行日 | 2025-02-25 15:28:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google