HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States

要約

追加のモダリティを統合すると、言語のみの対応物と比較して、脱獄攻撃などの安全リスクに対する大きな視覚言語モデル(LVLM)の感受性が高まります。
既存の研究は主に事後のアライメント技術に焦点を当てていますが、LVLM内の基礎となる安全メカニズムはほとんど未調査のままです。
この作業では、LVLMSが推論中に内部アクティベーション内で安全関連信号を本質的にエンコードするかどうかを調査します。
私たちの調査結果は、LVLMSが危険なプロンプトを処理するときに異なる活性化パターンを示すことを明らかにしています。これは、広範な微調整を必要とせずに敵対的な入力を検出および軽減するために活用できます。
この洞察に基づいて、安全性を高めるために内部モデルのアクティベーションを活用する新しいチューニングフリーのフレームワークであるHiddendEtectを紹介します。
実験結果は、{hiddendetect}がLVLMSに対する脱獄攻撃を検出する際に最先端の方法を上回ることを示しています。
本質的な安全性パターンを利用することにより、この方法は、マルチモーダルの脅威に対するLVLMの堅牢性を強化するための効率的でスケーラブルなソリューションを提供します。
私たちのコードは、https://github.com/leigest519/hiddendetectで公開されます。

要約(オリジナル)

The integration of additional modalities increases the susceptibility of large vision-language models (LVLMs) to safety risks, such as jailbreak attacks, compared to their language-only counterparts. While existing research primarily focuses on post-hoc alignment techniques, the underlying safety mechanisms within LVLMs remain largely unexplored. In this work , we investigate whether LVLMs inherently encode safety-relevant signals within their internal activations during inference. Our findings reveal that LVLMs exhibit distinct activation patterns when processing unsafe prompts, which can be leveraged to detect and mitigate adversarial inputs without requiring extensive fine-tuning. Building on this insight, we introduce HiddenDetect, a novel tuning-free framework that harnesses internal model activations to enhance safety. Experimental results show that {HiddenDetect} surpasses state-of-the-art methods in detecting jailbreak attacks against LVLMs. By utilizing intrinsic safety-aware patterns, our method provides an efficient and scalable solution for strengthening LVLM robustness against multimodal threats. Our code will be released publicly at https://github.com/leigest519/HiddenDetect.

arxiv情報

著者 Yilei Jiang,Xinyan Gao,Tianshuo Peng,Yingshui Tan,Xiaoyong Zhu,Bo Zheng,Xiangyu Yue
発行日 2025-02-20 17:14:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク