Text-Diffusion Red-Teaming of Large Language Models: Unveiling Harmful Behaviors with Proximity Constraints

要約

最近の研究では、特定のターゲット大規模言語モデル (LLM) の脆弱性をテストするための自動レッドチーム手法が提案されています。
これらの方法では、レッドチーム LLM を使用して、ターゲット LLM に有害な動作を誘発する入力を明らかにします。
このペーパーでは、ターゲットを絞ったセキュリティ評価を可能にするレッドチーム戦略について研究します。
我々は、発見されたプロンプトが特定のデータセットからの参照プロンプトと類似している必要がある、近接制約を伴うレッドチームのための最適化フレームワークを提案します。
このデータセットは、検出されたプロンプトのテンプレートとして機能し、テスト ケースの検索を特定のトピック、書き方、または有害な動作の種類に固定します。
確立された自己回帰モデル アーキテクチャがこの設定ではうまく機能しないことを示します。
そこで、テキスト拡散モデルにヒントを得たブラックボックスのレッドチーム化手法、Diffusion for Auditing and Red-Teaming (DART) を導入します。
DART は、埋め込み空間内で参照プロンプトを摂動させることで参照プロンプトを変更し、導入される変更の量を直接制御します。
私たちは、モデルの微調整とゼロショットおよび少数ショットのプロンプティングに基づいた確立された方法とその有効性を比較することにより、方法を体系的に評価します。
私たちの結果は、DART が参照プロンプトのすぐ近くにある有害な入力を発見するのに大幅に効果的であることを示しています。

要約(オリジナル)

Recent work has proposed automated red-teaming methods for testing the vulnerabilities of a given target large language model (LLM). These methods use red-teaming LLMs to uncover inputs that induce harmful behavior in a target LLM. In this paper, we study red-teaming strategies that enable a targeted security assessment. We propose an optimization framework for red-teaming with proximity constraints, where the discovered prompts must be similar to reference prompts from a given dataset. This dataset serves as a template for the discovered prompts, anchoring the search for test-cases to specific topics, writing styles, or types of harmful behavior. We show that established auto-regressive model architectures do not perform well in this setting. We therefore introduce a black-box red-teaming method inspired by text-diffusion models: Diffusion for Auditing and Red-Teaming (DART). DART modifies the reference prompt by perturbing it in the embedding space, directly controlling the amount of change introduced. We systematically evaluate our method by comparing its effectiveness with established methods based on model fine-tuning and zero- and few-shot prompting. Our results show that DART is significantly more effective at discovering harmful inputs in close proximity to the reference prompt.

arxiv情報

著者 Jonathan Nöther,Adish Singla,Goran Radanović
発行日 2025-01-14 16:32:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク