ASTPrompter: Weakly Supervised Automated Language Model Red-Teaming to Identify Likely Toxic Prompts

要約

自動レッドチーム化大規模言語モデル (LLM) の一般的なスキームは、凍結された言語モデル (防御側) をトリガーして有害なテキストを生成するプロンプトを検出することに重点を置いています。
これにより、プロンプト モデル (敵対者) が理解不能で、出現する可能性が低いテキストを生成することがよくあります。
ここでは、LLM レッドチーム タスクの強化学習定式化を提案します。これにより、(1) 凍結した防御者から有毒な出力をトリガーすること、および (2) 防御者によってスコア付けされた混乱が低いことの両方を示すプロンプトを発見できます。
私たちは、これらのケースは、防御者モデルの通常の使用中に発生する可能性があるため、レッドチームの設定で最も適切であると主張します。
私たちは、GPT-2 および GPT-2 XL 防御側の Identity Preference Optimization (IPO) の新しいオンラインの弱く監視されたバリアントを通じてこの定式化を解決します。
私たちは、私たちのポリシーが毒性を引き起こす可能性のあるプロンプトを生成できることを実証します。
最後に、学習された戦略、可能性と毒性のトレードオフを定性的に分析し、その影響について議論します。
このプロジェクトのソース コードは https://github.com/sisl/ASTPrompter/ から入手できます。

要約(オリジナル)

Typical schemes for automated red-teaming large language models (LLMs) focus on discovering prompts that trigger a frozen language model (the defender) to generate toxic text. This often results in the prompting model (the adversary) producing text that is unintelligible and unlikely to arise. Here, we propose a reinforcement learning formulation of the LLM red-teaming task which allows us to discover prompts that both (1) trigger toxic outputs from a frozen defender and (2) have low perplexity as scored by the defender. We argue these cases are most pertinent in a red-teaming setting because of their likelihood to arise during normal use of the defender model. We solve this formulation through a novel online and weakly supervised variant of Identity Preference Optimization (IPO) on GPT-2 and GPT-2 XL defenders. We demonstrate that our policy is capable of generating likely prompts that also trigger toxicity. Finally, we qualitatively analyze learned strategies, trade-offs of likelihood and toxicity, and discuss implications. Source code is available for this project at: https://github.com/sisl/ASTPrompter/.

arxiv情報

著者 Amelia F. Hardy,Houjun Liu,Bernard Lange,Mykel J. Kochenderfer
発行日 2024-07-12 17:33:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク