FLIRT: Feedback Loop In-context Red Teaming

要約

警告: この文書には、不適切または攻撃的な可能性のあるコンテンツが含まれています。
生成モデルがさまざまなアプリケーションで一般に利用できるようになるにつれて、これらのモデルの脆弱性のテストと分析が優先事項になっています。
ここでは、特定のモデルを評価し、安全でない不適切なコンテンツ生成に対する脆弱性を明らかにする自動レッド チーム フレームワークを提案します。
私たちのフレームワークは、フィードバック ループでインコンテキスト学習を使用してチーム モデルをレッド化し、安全でないコンテンツ生成をトリガーします。
私たちは、テキストから画像へのモデルに対する効果的で多様な敵対的プロンプトを自動的に学習する、さまざまなコンテキスト内攻撃戦略を提案します。
私たちの実験は、安定拡散 (SD) モデルが安全機能で強化されている場合でも、ベースラインのアプローチと比較して、私たちが提案する戦略が安定拡散 (SD) モデルの脆弱性を明らかにするのに大幅に効果的であることを示しています。
さらに、提案されたフレームワークがテキスト間モデルのレッドチームに効果的であり、その結果、以前に報告された数値と比較して有害な反応の生成率が大幅に高くなることが実証されました。

要約(オリジナル)

Warning: this paper contains content that may be inappropriate or offensive. As generative models become available for public use in various applications, testing and analyzing vulnerabilities of these models has become a priority. Here we propose an automatic red teaming framework that evaluates a given model and exposes its vulnerabilities against unsafe and inappropriate content generation. Our framework uses in-context learning in a feedback loop to red team models and trigger them into unsafe content generation. We propose different in-context attack strategies to automatically learn effective and diverse adversarial prompts for text-to-image models. Our experiments demonstrate that compared to baseline approaches, our proposed strategy is significantly more effective in exposing vulnerabilities in Stable Diffusion (SD) model, even when the latter is enhanced with safety features. Furthermore, we demonstrate that the proposed framework is effective for red teaming text-to-text models, resulting in significantly higher toxic response generation rate compared to previously reported numbers.

arxiv情報

著者 Ninareh Mehrabi,Palash Goyal,Christophe Dupuy,Qian Hu,Shalini Ghosh,Richard Zemel,Kai-Wei Chang,Aram Galstyan,Rahul Gupta
発行日 2023-08-08 14:03:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク