要約
マルチモーダル大手言語モデル(MLRMS)の出現により、強化学習と考え方(COT)の監督を統合することにより、洗練された視覚的推論機能が可能になりました。
ただし、これらの強化された推論能力はパフォーマンスを改善しますが、新たな露出度の低い安全性リスクも導入します。
この作業では、MLRMSの高度な視覚的推論のセキュリティへの影響を体系的に調査します。
私たちの分析は、基本的なトレードオフを明らかにしています。視覚的推論が改善するにつれて、モデルは脱獄攻撃に対してより脆弱になります。
この重要な発見に動機付けられているため、安全メカニズムをバイパスするために視覚的推論チェーンを活用する新しい脱獄フレームワークであるViscra(Visual Chain Reasuing Attack)を紹介します。
Viscraは、ターゲットを絞った視覚的注意マスキングと2段階の推論誘導戦略を組み合わせて、有害な出力を正確に制御します。
広範な実験は、Viscraの有効性を示しており、閉鎖ソースMLRMの主要な攻撃成功率を達成しました。Gemini2.0フラッシュ思考で76.48%、QVQ-Maxで68.56%、GPT-4oで56.60%。
私たちの調査結果は、重要な洞察を強調しています。MLRMSに力を与える能力 – 視覚的推論 – は、攻撃ベクターとしても役立ち、重大なセキュリティリスクをもたらします。
要約(オリジナル)
The emergence of Multimodal Large Language Models (MLRMs) has enabled sophisticated visual reasoning capabilities by integrating reinforcement learning and Chain-of-Thought (CoT) supervision. However, while these enhanced reasoning capabilities improve performance, they also introduce new and underexplored safety risks. In this work, we systematically investigate the security implications of advanced visual reasoning in MLRMs. Our analysis reveals a fundamental trade-off: as visual reasoning improves, models become more vulnerable to jailbreak attacks. Motivated by this critical finding, we introduce VisCRA (Visual Chain Reasoning Attack), a novel jailbreak framework that exploits the visual reasoning chains to bypass safety mechanisms. VisCRA combines targeted visual attention masking with a two-stage reasoning induction strategy to precisely control harmful outputs. Extensive experiments demonstrate VisCRA’s significant effectiveness, achieving high attack success rates on leading closed-source MLRMs: 76.48% on Gemini 2.0 Flash Thinking, 68.56% on QvQ-Max, and 56.60% on GPT-4o. Our findings highlight a critical insight: the very capability that empowers MLRMs — their visual reasoning — can also serve as an attack vector, posing significant security risks.
arxiv情報
著者 | Bingrui Sima,Linhua Cong,Wenxuan Wang,Kun He |
発行日 | 2025-05-28 15:29:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google