SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models

要約

大規模言語モデル (LLM) の機能と影響力が進化し続けるにつれて、そのセキュリティを確保し、有害な出力を防止することが重要になっています。
これらの懸念に対処するための有望なアプローチには、レッド チーム化のための敵対的プロンプトを自動的に生成するモデルのトレーニングが含まれます。
しかし、LLM の脆弱性の巧妙さは進化しており、現在の敵対的手法の有効性に疑問が生じており、これらのモデルの弱点を具体的にターゲットにして探索するのに苦労しています。
これらの課題に取り組むために、 $\mathbf{S}\text{elf-}\mathbf{E}\text{volving }\mathbf{A}\text{dversarial }\mathbf{S}\text{afety } を導入します。
\mathbf{(SEAS)}$ 最適化フレームワーク。モデル自体によって生成されたデータを活用することでセキュリティを強化します。
SEAS は、初期化、攻撃、敵対的最適化の 3 つの反復段階を通じて動作し、レッド チーム モデルとターゲット モデルの両方を改良して堅牢性と安全性を向上させます。
このフレームワークにより、手動テストへの依存が軽減され、LLM のセキュリティ機能が大幅に強化されます。
私たちの貢献には、新しい敵対的フレームワーク、包括的な安全性データセットが含まれます。3 回の反復の後、ターゲット モデルは GPT-4 に匹敵するセキュリティ レベルを達成し、レッド チーム モデルは先進的なモデルに対して攻撃成功率 (ASR) の顕著な増加を示しました。

要約(オリジナル)

As large language models (LLMs) continue to advance in capability and influence, ensuring their security and preventing harmful outputs has become crucial. A promising approach to address these concerns involves training models to automatically generate adversarial prompts for red teaming. However, the evolving subtlety of vulnerabilities in LLMs challenges the effectiveness of current adversarial methods, which struggle to specifically target and explore the weaknesses of these models. To tackle these challenges, we introduce the $\mathbf{S}\text{elf-}\mathbf{E}\text{volving }\mathbf{A}\text{dversarial }\mathbf{S}\text{afety }\mathbf{(SEAS)}$ optimization framework, which enhances security by leveraging data generated by the model itself. SEAS operates through three iterative stages: Initialization, Attack, and Adversarial Optimization, refining both the Red Team and Target models to improve robustness and safety. This framework reduces reliance on manual testing and significantly enhances the security capabilities of LLMs. Our contributions include a novel adversarial framework, a comprehensive safety dataset, and after three iterations, the Target model achieves a security level comparable to GPT-4, while the Red Team model shows a marked increase in attack success rate (ASR) against advanced models.

arxiv情報

著者 Muxi Diao,Rumei Li,Shiyang Liu,Guogang Liao,Jingang Wang,Xunliang Cai,Weiran Xu
発行日 2024-08-05 16:55:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク