Understanding and Rectifying Safety Perception Distortion in VLMs

要約

最近の研究では、ビジョンモデル(VLM)がビジョンモダリティを統合した後、有害な要求や脱獄攻撃の影響を受けやすく、テキストのみのLLMバックボーンよりも大きな脆弱性を示していることが明らかになりました。
この現象の根本原因を明らかにするために、詳細な分析を実施し、重要な問題を特定します。マルチモーダル入力は、テキストのみのカウンターパートと比較して、モダリティ誘発性の活性化シフトを「より安全な」方向に向けて導入し、VLMを体系的に過大評価するように導きます
有害な入力の安全性。
この問題を安全性認識の歪みと呼びます。
このような歪みを緩和するために、活性化シフトの解体とキャリブレーション(ShiftDC)を提案します。これは、モダリティ誘発性の活性化シフトを分解およびキャリブレーションして、安全性へのモダリティの影響を減らすことを提案します。
ShiftDCは、安全関連コンポーネントを分離および削除することにより、VLMの視覚言語機能を維持しながら、LLMバックボーンの固有の安全アライメントを復元します。
経験的結果は、ShiftDCがモデルの有用性を損なうことなく安全ベンチマークのアライメント性能を大幅に向上させることを示しています。

要約(オリジナル)

Recent studies reveal that vision-language models (VLMs) become more susceptible to harmful requests and jailbreak attacks after integrating the vision modality, exhibiting greater vulnerability than their text-only LLM backbones. To uncover the root cause of this phenomenon, we conduct an in-depth analysis and identify a key issue: multimodal inputs introduce an modality-induced activation shift toward a ‘safer’ direction compared to their text-only counterparts, leading VLMs to systematically overestimate the safety of harmful inputs. We refer to this issue as safety perception distortion. To mitigate such distortion, we propose Activation Shift Disentanglement and Calibration (ShiftDC), a training-free method that decomposes and calibrates the modality-induced activation shift to reduce the impact of modality on safety. By isolating and removing the safety-relevant component, ShiftDC restores the inherent safety alignment of the LLM backbone while preserving the vision-language capabilities of VLMs. Empirical results demonstrate that ShiftDC significantly enhances alignment performance on safety benchmarks without impairing model utility.

arxiv情報

著者 Xiaohan Zou,Jian Kang,George Kesidis,Lu Lin
発行日 2025-02-18 18:06:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク