WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs

要約

WildGuard を紹介します。これは、(1) ユーザー プロンプト内の悪意のある意図の特定、(2) モデルの応答の安全性リスクの検出、(3) モデルの拒否率の決定という 3 つの目標を達成する、LLM 安全性のためのオープンで軽量のモデレーション ツールです。
WildGuard は、LLM インタラクションの自動安全モデレーションと評価に対する増大するニーズに合わせて応え、精度が向上し、13 のリスク カテゴリを幅広くカバーするワンストップ ツールを提供します。
Llama-Guard2 などの既存のオープン モデレーション ツールは、単純なモデル インタラクションの分類ではかなり良いスコアを示していますが、特に敵対的なジェイルブレイクの特定や、モデルの安全動作を評価するための重要な尺度であるモデルの拒否の評価では、プロンプト付き GPT-4 に大きく遅れをとっています。
反応。
これらの課題に対処するために、私たちは、バニラ (直接) プロンプトと敵対的なジェイルブレイクをカバーする 92,000 個のラベル付きサンプルを含む大規模で慎重にバランスの取れたマルチタスク安全モデレーション データセットである WildGuardMix を構築し、さまざまな拒否およびコンプライアンス応答と組み合わせています。
WildGuardMix は、WildGuard のトレーニング データである WildGuardTrain と、広範なリスク シナリオをカバーする 5K のラベル付きアイテムを含む高品質の人による注釈付きモデレーション テスト セットである WildGuardTest を組み合わせたものです。
WildGuardTest と 10 個の既存の公開ベンチマークに関する広範な評価を通じて、WildGuard が 10 個の強力な既存のオープンソース モデレーション モデル (例:
拒否の検出が 26.4% 改善されました)。
重要なことは、WildGuard は GPT-4 のパフォーマンスに匹敵し、場合によってはそれを上回っていることです (たとえば、迅速な有害性の特定において最大 3.9% の改善)。
WildGuard は、LLM インターフェイスで非常に効果的な安全モデレーターとして機能し、ジェイルブレイク攻撃の成功率を 79.8% から 2.4% に低下させます。

要約(オリジナル)

We introduce WildGuard — an open, light-weight moderation tool for LLM safety that achieves three goals: (1) identifying malicious intent in user prompts, (2) detecting safety risks of model responses, and (3) determining model refusal rate. Together, WildGuard serves the increasing needs for automatic safety moderation and evaluation of LLM interactions, providing a one-stop tool with enhanced accuracy and broad coverage across 13 risk categories. While existing open moderation tools such as Llama-Guard2 score reasonably well in classifying straightforward model interactions, they lag far behind a prompted GPT-4, especially in identifying adversarial jailbreaks and in evaluating models’ refusals, a key measure for evaluating safety behaviors in model responses. To address these challenges, we construct WildGuardMix, a large-scale and carefully balanced multi-task safety moderation dataset with 92K labeled examples that cover vanilla (direct) prompts and adversarial jailbreaks, paired with various refusal and compliance responses. WildGuardMix is a combination of WildGuardTrain, the training data of WildGuard, and WildGuardTest, a high-quality human-annotated moderation test set with 5K labeled items covering broad risk scenarios. Through extensive evaluations on WildGuardTest and ten existing public benchmarks, we show that WildGuard establishes state-of-the-art performance in open-source safety moderation across all the three tasks compared to ten strong existing open-source moderation models (e.g., up to 26.4% improvement on refusal detection). Importantly, WildGuard matches and sometimes exceeds GPT-4 performance (e.g., up to 3.9% improvement on prompt harmfulness identification). WildGuard serves as a highly effective safety moderator in an LLM interface, reducing the success rate of jailbreak attacks from 79.8% to 2.4%.

arxiv情報

著者 Seungju Han,Kavel Rao,Allyson Ettinger,Liwei Jiang,Bill Yuchen Lin,Nathan Lambert,Yejin Choi,Nouha Dziri
発行日 2024-06-26 16:58:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク