Subtoxic Questions: Dive Into Attitude Change of LLM’s Response in Jailbreak Attempts

要約

プロンプトジェイルブレイクの大規模言語モデル (LLM) がますます注目を集めているため、攻撃強度を評価するための一般化された研究パラダイムと、より微妙な実験を行うための基本モデルを確立することは非常に重要です。
このペーパーでは、強化された LLM セキュリティによってもたらされる制限を回避することを目的として、本質的にジェイルブレイク プロンプトに対してより敏感な一連の対象となる質問に焦点を当て、新しいアプローチを提案します。
このペーパーでは、これらのデリケートな質問を設計および分析することにより、LLM の脆弱性を特定するより効果的な方法を明らかにし、それによって LLM セキュリティの進歩に貢献します。
この研究は、既存のジェイルブレイク手法に挑戦するだけでなく、潜在的なエクスプロイトに対して LLM を強化します。

要約(オリジナル)

As Large Language Models (LLMs) of Prompt Jailbreaking are getting more and more attention, it is of great significance to raise a generalized research paradigm to evaluate attack strengths and a basic model to conduct subtler experiments. In this paper, we propose a novel approach by focusing on a set of target questions that are inherently more sensitive to jailbreak prompts, aiming to circumvent the limitations posed by enhanced LLM security. Through designing and analyzing these sensitive questions, this paper reveals a more effective method of identifying vulnerabilities in LLMs, thereby contributing to the advancement of LLM security. This research not only challenges existing jailbreaking methodologies but also fortifies LLMs against potential exploits.

arxiv情報

著者 Tianyu Zhang,Zixuan Zhao,Jiaqi Huang,Jingyu Hua,Sheng Zhong
発行日 2024-04-12 08:08:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク