要約
大規模な言語モデル(LLM)は顕著な能力を示しますが、安全でないまたは偏った出力を生成するために脆弱性を活用する敵対的なプロンプトの影響を受けやすいです。
既存のレッドチームの方法は、多くの場合、スケーラビリティの課題、リソース集約型の要件、または攻撃戦略における限られた多様性に直面しています。
進化的計算に根ざした新規のレッドチーミングフレームワークであるRainbowPlusを提案し、言語モデルに合わせた革新を備えたMAP-ELITEのような古典的な進化アルゴリズムを拡張する適応的品質 – 多様性(QD)検索を通じて敵対的な迅速な生成を強化します。
多様な高品質のプロンプトと包括的なフィットネス関数を保存するためのマルチエレメントアーカイブを使用して、複数のプロンプトを同時に評価することにより、RainbowPlusは、Rainbowチームのような以前のQDメソッドのシングルプロムプトアーカイブの制約とペアワイズ比較を克服します。
6つのベンチマークデータセットと4つのオープンソースLLMのQDメソッドとQDメソッドを比較した実験は、優れた攻撃成功率(ASR)と多様性(Diverse-Score $ \約0.84 $)を示し、最大100倍のユニークなプロンプトを生成します(例:Ministral-8B-instruct-2410の場合は10,418 Vs. 100)。
Rainbowplusは、12のLLMS(10のオープンソース、2つのクローズドソース)を備えた9つの最先端のメソッドに対して、12のLLMS(10のオープンソース、2つのクローズドソース)を備えた9つの最先端のデータに対して、81.1%の平均ASRを達成し、Autodan-Turboを3.9%上回り、9倍高速(1.45対13.50時間)です。
当社のオープンソースの実装は、LLM安全性のさらなる進歩を促進し、脆弱性評価のためのスケーラブルなツールを提供します。
コードとリソースは、https://github.com/knoveleng/rainbowplusで公開されており、LLM Red-Teamingの再現性と将来の研究をサポートしています。
要約(オリジナル)
Large Language Models (LLMs) exhibit remarkable capabilities but are susceptible to adversarial prompts that exploit vulnerabilities to produce unsafe or biased outputs. Existing red-teaming methods often face scalability challenges, resource-intensive requirements, or limited diversity in attack strategies. We propose RainbowPlus, a novel red-teaming framework rooted in evolutionary computation, enhancing adversarial prompt generation through an adaptive quality-diversity (QD) search that extends classical evolutionary algorithms like MAP-Elites with innovations tailored for language models. By employing a multi-element archive to store diverse high-quality prompts and a comprehensive fitness function to evaluate multiple prompts concurrently, RainbowPlus overcomes the constraints of single-prompt archives and pairwise comparisons in prior QD methods like Rainbow Teaming. Experiments comparing RainbowPlus to QD methods across six benchmark datasets and four open-source LLMs demonstrate superior attack success rate (ASR) and diversity (Diverse-Score $\approx 0.84$), generating up to 100 times more unique prompts (e.g., 10,418 vs. 100 for Ministral-8B-Instruct-2410). Against nine state-of-the-art methods on the HarmBench dataset with twelve LLMs (ten open-source, two closed-source), RainbowPlus achieves an average ASR of 81.1%, surpassing AutoDAN-Turbo by 3.9%, and is 9 times faster (1.45 vs. 13.50 hours). Our open-source implementation fosters further advancements in LLM safety, offering a scalable tool for vulnerability assessment. Code and resources are publicly available at https://github.com/knoveleng/rainbowplus, supporting reproducibility and future research in LLM red-teaming.
arxiv情報
著者 | Quy-Anh Dang,Chris Ngo,Truong-Son Hy |
発行日 | 2025-04-21 12:04:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google