要約
大規模言語モデル (LLM) の最近の進歩により、LLM は不可欠なものとなり、安全性の管理に関して大きな懸念が生じています。
自動化されたレッド チームは、労働集約的でエラーが発生しやすい手動による脆弱性調査に代わる有望な代替手段を提供し、より一貫性と拡張性のある安全性評価を提供します。
ただし、既存のアプローチでは、攻撃の成功率を最大化することに重点を置くことにより、多様性が損なわれることがよくあります。
さらに、意味的多様性の報酬を使用して履歴埋め込みからコサイン類似性を減少させる方法は、歴史が成長するにつれて新規性の停滞につながります。
これらの問題に対処するために、目的と意味の報酬に対する従来の制約を緩和し、多様性を高めるためのポリシーの自由度を高める DiveR-CT を導入します。
私たちの実験では、1) さまざまな攻撃成功率レベルにわたるさまざまな多様性メトリクスでより優れたパフォーマンスを示すデータを生成すること、2) 収集されたデータに基づく安全性調整を通じてブルー チーム モデルの回復力をより強化すること、3)
信頼性が高く制御可能な攻撃成功率を実現する目的の重みの動的制御、および 4) 報酬の過剰な最適化に対する感受性の低減。
プロジェクトの詳細とコードは、https://andrewzh112.github.io/#diverct でご覧いただけます。
要約(オリジナル)
Recent advances in large language models (LLMs) have made them indispensable, raising significant concerns over managing their safety. Automated red teaming offers a promising alternative to the labor-intensive and error-prone manual probing for vulnerabilities, providing more consistent and scalable safety evaluations. However, existing approaches often compromise diversity by focusing on maximizing attack success rate. Additionally, methods that decrease the cosine similarity from historical embeddings with semantic diversity rewards lead to novelty stagnation as history grows. To address these issues, we introduce DiveR-CT, which relaxes conventional constraints on the objective and semantic reward, granting greater freedom for the policy to enhance diversity. Our experiments demonstrate DiveR-CT’s marked superiority over baselines by 1) generating data that perform better in various diversity metrics across different attack success rate levels, 2) better-enhancing resiliency in blue team models through safety tuning based on collected data, 3) allowing dynamic control of objective weights for reliable and controllable attack success rates, and 4) reducing susceptibility to reward overoptimization. Project details and code can be found at https://andrewzh112.github.io/#diverct.
arxiv情報
著者 | Andrew Zhao,Quentin Xu,Matthieu Lin,Shenzhi Wang,Yong-jin Liu,Zilong Zheng,Gao Huang |
発行日 | 2024-05-29 12:12:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google