Cognitive Overload: Jailbreaking Large Language Models with Overloaded Logical Thinking

要約

大規模言語モデル (LLM) の能力は増大していることが実証されていますが、同時にさまざまな有害な動作も引き起こしています。
代表的なものとして、ジェイルブレイク攻撃は、安全性の調整後であっても、LLM から有害または非倫理的な反応を引き起こす可能性があります。
この論文では、特に LLM の認知構造とプロセスを標的とするように設計された新しいカテゴリのジェイルブレイク攻撃を調査します。
具体的には、(1) 多言語による認知過負荷、(2) ベールに包まれた表現、および (3) 結果から原因への推論に直面した LLM の安全性の脆弱性を分析します。
以前のジェイルブレイク攻撃とは異なり、私たちが提案する認知的オーバーロードは、モデル アーキテクチャの知識やモデルの重みへのアクセスを必要としないブラックボックス攻撃です。
AdvBench と MasterKey で行われた実験により、人気のあるオープンソース モデル Llama 2 と独自モデル ChatGPT の両方を含むさまざまな LLM が、認知過負荷によって侵害される可能性があることが明らかになりました。
認知負荷の管理に関する認知心理学研究を動機として、我々は認知過負荷攻撃の防御を 2 つの観点からさらに調査します。
実証研究によると、3 つの観点からの認知過負荷は、研究対象のすべての LLM をうまく脱獄できる一方、既存の防御戦略では、引き起こされる悪意のある使用を効果的に軽減することはほとんどできません。

要約(オリジナル)

While large language models (LLMs) have demonstrated increasing power, they have also given rise to a wide range of harmful behaviors. As representatives, jailbreak attacks can provoke harmful or unethical responses from LLMs, even after safety alignment. In this paper, we investigate a novel category of jailbreak attacks specifically designed to target the cognitive structure and processes of LLMs. Specifically, we analyze the safety vulnerability of LLMs in the face of (1) multilingual cognitive overload, (2) veiled expression, and (3) effect-to-cause reasoning. Different from previous jailbreak attacks, our proposed cognitive overload is a black-box attack with no need for knowledge of model architecture or access to model weights. Experiments conducted on AdvBench and MasterKey reveal that various LLMs, including both popular open-source model Llama 2 and the proprietary model ChatGPT, can be compromised through cognitive overload. Motivated by cognitive psychology work on managing cognitive load, we further investigate defending cognitive overload attack from two perspectives. Empirical studies show that our cognitive overload from three perspectives can jailbreak all studied LLMs successfully, while existing defense strategies can hardly mitigate the caused malicious uses effectively.

arxiv情報

著者 Nan Xu,Fei Wang,Ben Zhou,Bang Zheng Li,Chaowei Xiao,Muhao Chen
発行日 2023-11-16 11:52:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク