Knowledge-to-Jailbreak: One Knowledge Point Worth One Attack

要約

大規模言語モデル (LLM) はさまざまなドメインにますます適用されており、これにより特殊なドメイン (例: 言語モデル) における LLM の安全性に対する懸念が高まっています。
薬。
ただし、既存のベンチマークにはドメイン知識に基づく攻撃が存在しないため、LLM のドメイン固有の安全性をテストすることは困難です。
このギャップを埋めるために、私たちは、知識からジェイルブレイクという新しいタスクを提案します。これは、ドメイン知識からジェイルブレイクを生成し、それらのドメインに適用された場合の LLM の安全性を評価することを目的としています。
12,974 の知識と脱獄のペアを含む大規模なデータセットを収集し、脱獄ジェネレーターとして大規模な言語モデルを微調整して、ドメインの知識に特化した脱獄を生成します。
13 のドメインと 8 つのターゲット LLM に関する実験では、与えられた知識に関連し、ターゲット LLM に有害なジェイルブレイクを生成するジェイルブレイク ジェネレーターの有効性を実証しました。
また、私たちの方法をドメイン外の知識ベースに適用し、ジェイルブレイク ジェネレーターが人間の専門家によって作成されたものと有害性において匹敵するジェイルブレイクを生成できることを示しました。
データとコード: https://github.com/THU-KEG/Knowledge-to-Jailbreak/。

要約(オリジナル)

Large language models (LLMs) have been increasingly applied to various domains, which triggers increasing concerns about LLMs’ safety on specialized domains, e.g. medicine. However, testing the domain-specific safety of LLMs is challenging due to the lack of domain knowledge-driven attacks in existing benchmarks. To bridge this gap, we propose a new task, knowledge-to-jailbreak, which aims to generate jailbreaks from domain knowledge to evaluate the safety of LLMs when applied to those domains. We collect a large-scale dataset with 12,974 knowledge-jailbreak pairs and fine-tune a large language model as jailbreak-generator, to produce domain knowledge-specific jailbreaks. Experiments on 13 domains and 8 target LLMs demonstrate the effectiveness of jailbreak-generator in generating jailbreaks that are both relevant to the given knowledge and harmful to the target LLMs. We also apply our method to an out-of-domain knowledge base, showing that jailbreak-generator can generate jailbreaks that are comparable in harmfulness to those crafted by human experts. Data and code: https://github.com/THU-KEG/Knowledge-to-Jailbreak/.

arxiv情報

著者 Shangqing Tu,Zhuoran Pan,Wenxuan Wang,Zhexin Zhang,Yuliang Sun,Jifan Yu,Hongning Wang,Lei Hou,Juanzi Li
発行日 2024-06-17 15:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク