JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models

要約

脱獄攻撃はLarge Language Models (LLM)に有害な応答を生成させ、深刻な悪用脅威をもたらす。ジェイルブレイク攻撃と防御に関する研究は台頭してきているものの、ジェイルブレイクの評価に関するコンセンサスは得られていない、つまり、LLMのレスポンスの有害性を評価する方法は様々である。各アプローチにはそれぞれ長所と短所があり、人間の価値観との整合性や時間的・金銭的コストに影響を与える。この多様性は、研究者が適切な評価方法を選択し、異なる攻撃と防御を比較する際の課題となっている。本稿では、2023年5月から2024年4月の間に発表された約90の脱獄研究から、脱獄の評価方法論の包括的な分析を行う。私たちの研究は、脱獄評価手法の体系的な分類法を導入し、その長所と短所、適応の現状について深い洞察を提供する。さらなる研究を支援するために、我々は脱獄の試みを評価するためのツールキットであるJailbreakEvalを提案する。JailbreakEvalには、すぐに使える様々な評価ツールが含まれており、ユーザは1つのコマンドまたはカスタマイズされた評価ワークフローで結果を得ることができる。要約すると、我々はJailbreakEvalが脱獄研究における評価プロセスを簡素化し、コミュニティ内で脱獄評価のための包括的な基準を育成する触媒であると考えている。

要約(オリジナル)

Jailbreak attacks induce Large Language Models (LLMs) to generate harmful responses, posing severe misuse threats. Though research on jailbreak attacks and defenses is emerging, there is no consensus on evaluating jailbreaks, i.e., the methods to assess the harmfulness of an LLM’s response are varied. Each approach has its own set of strengths and weaknesses, impacting their alignment with human values, as well as the time and financial cost. This diversity challenges researchers in choosing suitable evaluation methods and comparing different attacks and defenses. In this paper, we conduct a comprehensive analysis of jailbreak evaluation methodologies, drawing from nearly 90 jailbreak research published between May 2023 and April 2024. Our study introduces a systematic taxonomy of jailbreak evaluators, offering indepth insights into their strengths and weaknesses, along with the current status of their adaptation. To aid further research, we propose JailbreakEval, a toolkit for evaluating jailbreak attempts. JailbreakEval includes various evaluators out-of-the-box, enabling users to obtain results with a single command or customized evaluation workflows. In summary, we regard JailbreakEval to be a catalyst that simplifies the evaluation process in jailbreak research and fosters an inclusive standard for jailbreak evaluation within the community.

arxiv情報

著者 Delong Ran,Jinyuan Liu,Yichen Gong,Jingyi Zheng,Xinlei He,Tianshuo Cong,Anyu Wang
発行日 2025-02-04 16:04:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク