Tiny Refinements Elicit Resilience: Toward Efficient Prefix-Model Against LLM Red-Teaming

要約

大規模言語モデル (LLM) のレッドチーム戦略の急増に伴い、LLM 防御戦略の安全性と堅牢性の向上に関する文献の不足がますます顕著になってきています。
この論文では、ほんの数 ($<30$) の追加トークンで入力プロンプトを再構築し、ターゲット LLM からの応答の毒性を効果的に軽減するように設計されたプラグアンドプレイ プレフィックス モジュールとして、LLM ベースの \textbf{sentinel} モデルを紹介します。 センチネル モデルは、大規模なターゲット モデルを微調整するための \textit{パラメータの非効率性} と \textit{限定されたモデル アクセシビリティ} を自然に克服します。 当社では、近接ポリシー最適化 (PPO) を使用したインターリーブ型トレーニング計画を採用し、レッド チーム モデルとセンチネル モデルの両方を動的に最適化し、エージェント間の複雑な相互作用を管理するためのマルチエージェント集中型批評家からインスピレーションを得た価値ヘッド共有メカニズムを組み込んでいます。 テキストからテキストへ、およびテキストから画像への広範な実験により、\texttt{Llama-2}、\texttt{GPT-3.5}、\ のような大規模なモデルを扱う場合でも、有害な出力を軽減するアプローチの有効性が実証されました。 texttt{Stable-Diffusion} では、さまざまなアプリケーションにおける安全性と堅牢性を強化するためのフレームワークの可能性を強調しています。

要約(オリジナル)

With the proliferation of red-teaming strategies for Large Language Models (LLMs), the deficiency in the literature about improving the safety and robustness of LLM defense strategies is becoming increasingly pronounced. This paper introduces the LLM-based \textbf{sentinel} model as a plug-and-play prefix module designed to reconstruct the input prompt with just a few ($<30$) additional tokens, effectively reducing toxicity in responses from target LLMs. The sentinel model naturally overcomes the \textit{parameter inefficiency} and \textit{limited model accessibility} for fine-tuning large target models. We employ an interleaved training regimen using Proximal Policy Optimization (PPO) to optimize both red team and sentinel models dynamically, incorporating a value head-sharing mechanism inspired by the multi-agent centralized critic to manage the complex interplay between agents. Our extensive experiments across text-to-text and text-to-image demonstrate the effectiveness of our approach in mitigating toxic outputs, even when dealing with larger models like \texttt{Llama-2}, \texttt{GPT-3.5} and \texttt{Stable-Diffusion}, highlighting the potential of our framework in enhancing safety and robustness in various applications.

arxiv情報

著者 Jiaxu Liu,Xiangyu Yin,Sihao Wu,Jianhong Wang,Meng Fang,Xinping Yi,Xiaowei Huang
発行日 2024-05-21 08:57:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク