WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models

要約

WildTeaming は、自動 LLM 安全レッドチーム フレームワークです。これは、実際のユーザーとチャットボットのやり取りをマイニングして、新しい脱獄戦術の 5.7K のユニークなクラスターを発見し、新しい脱獄を体系的に探索するための複数の戦術を構成します。
採用された人間ワーカー、勾配ベースの最適化、または LLM による反復改訂を介したレッドチーム化を実行した以前の研究と比較して、私たちの研究では、システムを突破するように特に指示されていないチャットボット ユーザーによるジェイルブレイクを調査しています。
WildTeaming は、これまで未確認だったフロンティア LLM の脆弱性を明らかにし、最先端のジェイルブレイク手法と比較して最大 4.6 倍の多様で成功した敵対的攻撃をもたらします。
ジェイルブレイク評価用のデータセットは数多く存在しますが、モデルの重みがオープンでも安全トレーニング データはクローズされているため、ジェイルブレイク トレーニング用のオープンソース データセットはほとんど存在しません。
WildTeaming を使用して、262K のバニラ (直接リクエスト) と敵対的 (複雑なジェイルブレイク) のプロンプトと応答のペアを備えた大規模なオープンソースの合成安全性データセットである WildJailbreak を作成します。
誇張された安全行動を緩和するために、WildJailbreak は 2 つの対照的なタイプのクエリを提供します。1) 有害なクエリ (バニラおよび敵対的)、および 2) 形式は有害なクエリに似ていますが、害は含まない良性のクエリです。
WildJailbreak は既存の安全リソースの品質と規模を大幅にアップグレードするため、安全トレーニング中にデータのスケーリング効果やデータ プロパティとモデル機能の相互作用を独自に検証できるようになります。
広範な実験を通じて、私たちは安全行動の理想的なバランスを可能にするトレーニング特性を特定します。それは、過度の拒否のない適切な保護、バニラおよび敵対的なクエリの効果的な処理、および一般的な能力の低下があったとしても最小限に抑えられることです。
WildJailbeak のすべてのコンポーネントは、モデルのバランスの取れた安全動作の実現に貢献します。

要約(オリジナル)

We introduce WildTeaming, an automatic LLM safety red-teaming framework that mines in-the-wild user-chatbot interactions to discover 5.7K unique clusters of novel jailbreak tactics, and then composes multiple tactics for systematic exploration of novel jailbreaks. Compared to prior work that performed red-teaming via recruited human workers, gradient-based optimization, or iterative revision with LLMs, our work investigates jailbreaks from chatbot users who were not specifically instructed to break the system. WildTeaming reveals previously unidentified vulnerabilities of frontier LLMs, resulting in up to 4.6x more diverse and successful adversarial attacks compared to state-of-the-art jailbreak methods. While many datasets exist for jailbreak evaluation, very few open-source datasets exist for jailbreak training, as safety training data has been closed even when model weights are open. With WildTeaming we create WildJailbreak, a large-scale open-source synthetic safety dataset with 262K vanilla (direct request) and adversarial (complex jailbreak) prompt-response pairs. To mitigate exaggerated safety behaviors, WildJailbreak provides two contrastive types of queries: 1) harmful queries (vanilla & adversarial) and 2) benign queries that resemble harmful queries in form but contain no harm. As WildJailbreak considerably upgrades the quality and scale of existing safety resources, it uniquely enables us to examine the scaling effects of data and the interplay of data properties and model capabilities during safety training. Through extensive experiments, we identify the training properties that enable an ideal balance of safety behaviors: appropriate safeguarding without over-refusal, effective handling of vanilla and adversarial queries, and minimal, if any, decrease in general capabilities. All components of WildJailbeak contribute to achieving balanced safety behaviors of models.

arxiv情報

著者 Liwei Jiang,Kavel Rao,Seungju Han,Allyson Ettinger,Faeze Brahman,Sachin Kumar,Niloofar Mireshghallah,Ximing Lu,Maarten Sap,Yejin Choi,Nouha Dziri
発行日 2024-06-26 17:31:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク