Unveiling the Implicit Toxicity in Large Language Models

要約

大規模言語モデル (LLM) のオープンエンド性とその優れた機能は、悪意のある用途に悪用された場合に新たな安全性の問題を引き起こす可能性があります。
最近の研究は主に、既存の毒性分類器で簡単に検出できる有害な出力を調査することに焦点を当てていますが、LLM が単にゼロショットプロンプトだけでは検出することが非常に難しい、多様な暗黙的な有毒な出力を生成できることを示しています。
さらに、LLM の暗黙的な毒性をさらに誘発するための強化学習 (RL) ベースの攻撃方法を提案します。
具体的には、明示的な毒性および非毒性の出力よりも暗黙的な毒性の出力を優先する報酬を使用して言語モデルを最適化します。
広く採用されている 5 つの毒性分類器に関する実験では、RL の微調整によって攻撃の成功率を大幅に向上できることが実証されました。
たとえば、RL で微調整された LLaMA-13B モデルは、BAD では 90.04%、Davinci003 では 62.85% の攻撃成功率を達成しています。
私たちの調査結果は、LLM が検出不可能な暗黙的な有毒出力を生成する際に重大な脅威となることを示唆しています。
さらに、私たちの攻撃方法からの注釈付きの例に対する毒性分類器を微調整することで、LLM によって生成された暗黙的な有害な言語を検出する能力を効果的に強化できることを示します。
コードは https://github.com/thu-coai/Implicit-Toxicity で公開されています。

要約(オリジナル)

The open-endedness of large language models (LLMs) combined with their impressive capabilities may lead to new safety issues when being exploited for malicious use. While recent studies primarily focus on probing toxic outputs that can be easily detected with existing toxicity classifiers, we show that LLMs can generate diverse implicit toxic outputs that are exceptionally difficult to detect via simply zero-shot prompting. Moreover, we propose a reinforcement learning (RL) based attacking method to further induce the implicit toxicity in LLMs. Specifically, we optimize the language model with a reward that prefers implicit toxic outputs to explicit toxic and non-toxic ones. Experiments on five widely-adopted toxicity classifiers demonstrate that the attack success rate can be significantly improved through RL fine-tuning. For instance, the RL-finetuned LLaMA-13B model achieves an attack success rate of 90.04% on BAD and 62.85% on Davinci003. Our findings suggest that LLMs pose a significant threat in generating undetectable implicit toxic outputs. We further show that fine-tuning toxicity classifiers on the annotated examples from our attacking method can effectively enhance their ability to detect LLM-generated implicit toxic language. The code is publicly available at https://github.com/thu-coai/Implicit-Toxicity.

arxiv情報

著者 Jiaxin Wen,Pei Ke,Hao Sun,Zhexin Zhang,Chengfei Li,Jinfeng Bai,Minlie Huang
発行日 2023-11-29 06:42:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク