JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models

要約

ジェイルブレイク攻撃は、大規模言語モデル (LLM) が禁止された命令に対して有害な応答を生成するように誘導し、LLM に重大な悪用の脅威を与えることを目的としています。
現在までに、ジェイルブレイクの攻撃と防御に関する研究が行われていますが、ジェイルブレイクの試みが成功したかどうかを評価する方法については(驚くべきことに)コンセンサスがありません。
言い換えれば、LLM の応答の有害性を評価する方法は、手動によるアノテーションや特定の方法で GPT-4 を促すなど、さまざまです。
それぞれのアプローチには独自の長所と短所があり、時間と経済的コストだけでなく、人間の価値観との整合性にも影響を与えます。
この評価の多様性は、研究者にとって、適切な評価方法を選択し、さまざまなジェイルブレイク攻撃と防御間で公正な比較を行う上で課題となります。
この論文では、2023 年 5 月から 2024 年 4 月の間に発表された約 90 件の脱獄研究に基づいて、脱獄評価手法の包括的な分析を実施します。私たちの研究では、脱獄評価者の体系的な分類を導入し、脱獄評価者の長所と短所についての深い洞察を提供します。
適応の現在の状況についても説明します。
さらに、その後の研究を容易にするために、ジェイルブレイク試行の評価に焦点を当てたユーザーフレンドリーなツールキットである JailbreakEval を提案します。
これには、すぐに使用できるさまざまな既知の評価ツールが含まれているため、ユーザーは 1 つのコマンドだけで評価結果を取得できます。
また、JailbreakEval を使用すると、ユーザーは開発と比較が容易な統合フレームワークで独自の評価ワークフローをカスタマイズできます。
要約すると、私たちは JailbreakEval が脱獄研究における評価プロセスを簡素化し、コミュニティ内での脱獄評価の包括的な標準を促進する触媒であると考えています。

要約(オリジナル)

Jailbreak attacks aim to induce Large Language Models (LLMs) to generate harmful responses for forbidden instructions, presenting severe misuse threats to LLMs. Up to now, research into jailbreak attacks and defenses is emerging, however, there is (surprisingly) no consensus on how to evaluate whether a jailbreak attempt is successful. In other words, the methods to assess the harmfulness of an LLM’s response are varied, such as manual annotation or prompting GPT-4 in specific ways. Each approach has its own set of strengths and weaknesses, impacting their alignment with human values, as well as the time and financial cost. This diversity in evaluation presents challenges for researchers in choosing suitable evaluation methods and conducting fair comparisons across different jailbreak attacks and defenses. In this paper, we conduct a comprehensive analysis of jailbreak evaluation methodologies, drawing from nearly ninety jailbreak research released between May 2023 and April 2024. Our study introduces a systematic taxonomy of jailbreak evaluators, offering in-depth insights into their strengths and weaknesses, along with the current status of their adaptation. Moreover, to facilitate subsequent research, we propose JailbreakEval, a user-friendly toolkit focusing on the evaluation of jailbreak attempts. It includes various well-known evaluators out-of-the-box, so that users can obtain evaluation results with only a single command. JailbreakEval also allows users to customize their own evaluation workflow in a unified framework with the ease of development and comparison. In summary, we regard JailbreakEval to be a catalyst that simplifies the evaluation process in jailbreak research and fosters an inclusive standard for jailbreak evaluation within the community.

arxiv情報

著者 Delong Ran,Jinyuan Liu,Yichen Gong,Jingyi Zheng,Xinlei He,Tianshuo Cong,Anyu Wang
発行日 2024-06-13 16:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク