LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models

要約

大規模な言語モデル(LLMS)の急速な発展は、さまざまなタスクにわたって大きな進歩をもたらしました。
しかし、これらの成果にもかかわらず、LLMは依然としてジェイルブレイク攻撃に直面した場合、依然として固有の安全脆弱性を示しています。
既存の脱獄方法は、2つの主な制限に悩まされています。複雑な迅速なエンジニアリングと反復最適化への依存。これは、攻撃の成功率(ASR)と攻撃効率(AE)につながります。
この作業では、LLMの高度な推論能力を活用して有害なコンテンツを自律的に生成するために、効率的な脱獄攻撃方法(ABJ)を分析し、複雑な推論プロセス中に根本的な安全脆弱性を明らかにします。
さまざまなオープンソースおよびクローズドソースLLMを介してABJで包括的な実験を実施しています。
特に、ABJは、すべてのターゲットLLMの中で並外れたAEを備えた高ASR(GPT-4O-2024-11-20で82.1%)を達成し、その顕著な攻撃の有効性、転送可能性、効率性を示しています。
私たちの調査結果は、誤用のリスクを軽減するためにLLMの安全性を優先し、改善する緊急の必要性を強調しています。

要約(オリジナル)

The rapid development of Large Language Models (LLMs) has brought significant advancements across various tasks. However, despite these achievements, LLMs still exhibit inherent safety vulnerabilities, especially when confronted with jailbreak attacks. Existing jailbreak methods suffer from two main limitations: reliance on complicated prompt engineering and iterative optimization, which lead to low attack success rate (ASR) and attack efficiency (AE). In this work, we propose an efficient jailbreak attack method, Analyzing-based Jailbreak (ABJ), which leverages the advanced reasoning capability of LLMs to autonomously generate harmful content, revealing their underlying safety vulnerabilities during complex reasoning process. We conduct comprehensive experiments on ABJ across various open-source and closed-source LLMs. In particular, ABJ achieves high ASR (82.1% on GPT-4o-2024-11-20) with exceptional AE among all target LLMs, showcasing its remarkable attack effectiveness, transferability, and efficiency. Our findings underscore the urgent need to prioritize and improve the safety of LLMs to mitigate the risks of misuse.

arxiv情報

著者 Shi Lin,Hongming Yang,Dingyang Lin,Rongchang Li,Xun Wang,Changting Lin,Wenpeng Xing,Meng Han
発行日 2025-03-05 14:43:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク