SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models

要約

大規模言語モデル (LLM) の急速に進化する状況では、堅牢な安全対策を確保することが最も重要です。
この重要なニーズを満たすために、LLM、攻撃、および防御方法を評価するために特別に設計された安全性ベンチマークである \emph{SALAD-Bench} を提案します。
SALAD-Bench は、その幅広さが特徴で、その大規模さ、豊かな多様性、3 つのレベルにわたる複雑な分類法、および多彩な機能を通じて従来のベンチマークを超越しています。SALAD-Bench は、標準的なクエリから攻撃で強化された複雑なクエリまで、一連の細心の注意を払って作成されています。
、防御の修正と複数の選択肢。
固有の複雑さを効果的に管理するために、革新的な評価ツールを導入しました。これは、攻撃強化されたクエリに特に焦点を当てた QA ペア用の LLM ベースの MD-Judge で、シームレスで信頼性の高い評価を保証します。
上記のコンポーネントは、SALAD-Bench を標準的な LLM 安全性評価から LLM 攻撃方法と防御方法の両方の評価に拡張し、共同目的のユーティリティを保証します。
私たちの広範な実験により、新たな脅威に対する LLM の回復力と現代の防御戦術の有効性が明らかになりました。
データと評価者は \url{https://github.com/OpenSafetyLab/SALAD-BENCH} で公開されています。
警告: この文書には、攻撃的または有害な可能性のある例が含まれています。

要約(オリジナル)

In the rapidly evolving landscape of Large Language Models (LLMs), ensuring robust safety measures is paramount. To meet this crucial need, we propose \emph{SALAD-Bench}, a safety benchmark specifically designed for evaluating LLMs, attack, and defense methods. Distinguished by its breadth, SALAD-Bench transcends conventional benchmarks through its large scale, rich diversity, intricate taxonomy spanning three levels, and versatile functionalities.SALAD-Bench is crafted with a meticulous array of questions, from standard queries to complex ones enriched with attack, defense modifications and multiple-choice. To effectively manage the inherent complexity, we introduce an innovative evaluators: the LLM-based MD-Judge for QA pairs with a particular focus on attack-enhanced queries, ensuring a seamless, and reliable evaluation. Above components extend SALAD-Bench from standard LLM safety evaluation to both LLM attack and defense methods evaluation, ensuring the joint-purpose utility. Our extensive experiments shed light on the resilience of LLMs against emerging threats and the efficacy of contemporary defense tactics. Data and evaluator are released under \url{https://github.com/OpenSafetyLab/SALAD-BENCH}. Warning: this paper includes examples that may be offensive or harmful.

arxiv情報

著者 Lijun Li,Bowen Dong,Ruohui Wang,Xuhao Hu,Wangmeng Zuo,Dahua Lin,Yu Qiao,Jing Shao
発行日 2024-02-07 17:33:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク