Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs

要約

大規模言語モデル(Large Language Models: LLM)は、その性能の高さにもかかわらず、ジェイルブレイク(脱獄)攻撃に対して脆弱なままであり、その安全機構が損なわれる可能性がある。既存の研究では、ブルートフォース最適化や手動設計に頼ることが多く、実世界のシナリオにおける潜在的なリスクを発見することができない。この問題に対処するために、我々は人間の認知におけるヒューリスティックとバイアスにインスパイアされた新しい脱獄攻撃フレームワーク、ICRTを提案する。単純化効果を活用し、悪意のあるプロンプトの複雑さを軽減するために認知分解を採用する。同時に、関連性バイアスを利用してプロンプトを再編成し、意味的な整合性を高め、有害な出力を効果的に誘導する。さらに、Elo、HodgeRank、Rank Centralityのようなランキング集計法を採用することで、従来の成功か失敗かのバイナリパラダイムを超える、ランキングベースの有害性評価指標を導入し、生成コンテンツの有害性を包括的に定量化する。実験結果は、私たちのアプローチが一貫して主流のLLMの安全メカニズムを回避し、高リスクのコンテンツを生成することを示し、脱獄攻撃のリスクに関する洞察を提供し、より強力な防御戦略に貢献します。

要約(オリジナル)

Despite the remarkable performance of Large Language Models (LLMs), they remain vulnerable to jailbreak attacks, which can compromise their safety mechanisms. Existing studies often rely on brute-force optimization or manual design, failing to uncover potential risks in real-world scenarios. To address this, we propose a novel jailbreak attack framework, ICRT, inspired by heuristics and biases in human cognition. Leveraging the simplicity effect, we employ cognitive decomposition to reduce the complexity of malicious prompts. Simultaneously, relevance bias is utilized to reorganize prompts, enhancing semantic alignment and inducing harmful outputs effectively. Furthermore, we introduce a ranking-based harmfulness evaluation metric that surpasses the traditional binary success-or-failure paradigm by employing ranking aggregation methods such as Elo, HodgeRank, and Rank Centrality to comprehensively quantify the harmfulness of generated content. Experimental results show that our approach consistently bypasses mainstream LLMs’ safety mechanisms and generates high-risk content, providing insights into jailbreak attack risks and contributing to stronger defense strategies.

arxiv情報

著者 Haoming Yang,Ke Ma,Xiaojun Jia,Yingfei Sun,Qianqian Xu,Qingming Huang
発行日 2025-06-03 14:46:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク