Curiosity-driven Red-teaming for Large Language Models

要約

大規模言語モデル (LLM) は、多くの自然言語アプリケーションにとって大きな可能性を秘めていますが、誤ったコンテンツや有害なコンテンツが生成される危険性があります。
LLM がいつ望ましくないコンテンツを生成するかを調査するために、現在のパラダイムは、LLM から望ましくない応答を引き出す入力プロンプト (つまり、テスト ケース) を設計する人間のテスターからなる \textit{レッド チーム} を採用することです。
ただし、人間のテスターのみに依存すると、費用と時間がかかります。
最近の研究では、強化学習 (RL) を使用して別のレッド チーム LLM をトレーニングし、ターゲット LLM から望ましくない応答を引き出す可能性を最大化するテスト ケースを生成することで、レッド チーム化を自動化しています。
ただし、現在の RL 手法では、少数の有効なテスト ケースしか生成できず、その結果、ターゲット LLM から望ましくない応答を引き出すプロンプトの範囲をカバーできません。
この制限を克服するために、生成されたテスト ケースの適用範囲を増やすという問題と、新規性を最適化する好奇心主導の探索という十分に研究されたアプローチとの関係を描きます。
当社の好奇心主導のレッド チーム (CRT) 手法は、既存の手法と比較してテスト ケースの有効性を維持または向上させながら、より広範囲のテスト ケースをカバーします。
私たちの方法である CRT は、有毒な出力を回避するために人間の好みを使用して大幅に微調整された LLaMA2 モデルから有毒な反応を引き起こすことに成功しました。
コードは \url{https://github.com/Improbable-AI/curiosity_redteam} で入手できます。

要約(オリジナル)

Large language models (LLMs) hold great potential for many natural language applications but risk generating incorrect or toxic content. To probe when an LLM generates unwanted content, the current paradigm is to recruit a \textit{red team} of human testers to design input prompts (i.e., test cases) that elicit undesirable responses from LLMs. However, relying solely on human testers is expensive and time-consuming. Recent works automate red teaming by training a separate red team LLM with reinforcement learning (RL) to generate test cases that maximize the chance of eliciting undesirable responses from the target LLM. However, current RL methods are only able to generate a small number of effective test cases resulting in a low coverage of the span of prompts that elicit undesirable responses from the target LLM. To overcome this limitation, we draw a connection between the problem of increasing the coverage of generated test cases and the well-studied approach of curiosity-driven exploration that optimizes for novelty. Our method of curiosity-driven red teaming (CRT) achieves greater coverage of test cases while mantaining or increasing their effectiveness compared to existing methods. Our method, CRT successfully provokes toxic responses from LLaMA2 model that has been heavily fine-tuned using human preferences to avoid toxic outputs. Code is available at \url{https://github.com/Improbable-AI/curiosity_redteam}

arxiv情報

著者 Zhang-Wei Hong,Idan Shenfeld,Tsun-Hsuan Wang,Yung-Sung Chuang,Aldo Pareja,James Glass,Akash Srivastava,Pulkit Agrawal
発行日 2024-02-29 18:55:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク