Defending Jailbreak Attack in VLMs via Cross-modality Information Detector

要約

ビジョン言語モデル (VLM) は、視覚情報を包括的に理解する LLM の能力を拡張し、多くの視覚中心のタスクで顕著なパフォーマンスを実現します。
それにもかかわらず、最近の研究では、これらのモデルがジェイルブレイク攻撃の影響を受けやすいことが示されています。ジェイルブレイク攻撃とは、悪意のあるユーザーがターゲット モデルの安全性の調整を破り、誤解を招く有害な回答を生成する悪用手法を指します。
この潜在的な脅威は、LLM に固有の脆弱性と、視覚入力によってもたらされるより大きな攻撃範囲の両方によって引き起こされます。
脱獄攻撃に対する VLM のセキュリティを強化するために、研究者はさまざまな防御技術を開発しました。
ただし、これらの方法では、モデルの内部構造の変更が必要になるか、推論段階で大量の計算リソースが必要になります。
マルチモーダルな情報は諸刃の剣です。
攻撃のリスクが高まる一方で、安全対策を強化できる追加データも提供されます。
これに触発されて、$\underline{\textbf{C}}$ross-modality $\underline{\textbf{I}}$nformation $\underline{\textbf{DE}}$tecto$\underline{\textbf を提案します。
{R}}$ ($\textit{CIDER})$ は、有害なクエリと敵対的な画像の間のクロスモーダルな類似性を利用して、悪意を持って混乱させられた画像入力を識別するように設計されたプラグアンドプレイの脱獄検出器です。
このシンプルかつ効果的なクロスモダリティ情報検出器 $\textit{CIDER}$ は、ターゲット VLM から独立しており、必要な計算コストが少なくなります。
広範な実験結果により、$\textit{CIDER}$ の有効性と効率性、およびホワイト ボックス VLM とブラック ボックス VLM の両方への移行可能性が実証されています。

要約(オリジナル)

Vision Language Models (VLMs) extend the capacity of LLMs to comprehensively understand vision information, achieving remarkable performance in many vision-centric tasks. Despite that, recent studies have shown that these models are susceptible to jailbreak attacks, which refer to an exploitative technique where malicious users can break the safety alignment of the target model and generate misleading and harmful answers. This potential threat is caused by both the inherent vulnerabilities of LLM and the larger attack scope introduced by vision input. To enhance the security of VLMs against jailbreak attacks, researchers have developed various defense techniques. However, these methods either require modifications to the model’s internal structure or demand significant computational resources during the inference phase. Multimodal information is a double-edged sword. While it increases the risk of attacks, it also provides additional data that can enhance safeguards. Inspired by this, we propose $\underline{\textbf{C}}$ross-modality $\underline{\textbf{I}}$nformation $\underline{\textbf{DE}}$tecto$\underline{\textbf{R}}$ ($\textit{CIDER})$, a plug-and-play jailbreaking detector designed to identify maliciously perturbed image inputs, utilizing the cross-modal similarity between harmful queries and adversarial images. This simple yet effective cross-modality information detector, $\textit{CIDER}$, is independent of the target VLMs and requires less computation cost. Extensive experimental results demonstrate the effectiveness and efficiency of $\textit{CIDER}$, as well as its transferability to both white-box and black-box VLMs.

arxiv情報

著者 Yue Xu,Xiuyuan Qi,Zhan Qin,Wenjie Wang
発行日 2024-08-01 12:22:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク