Fine-Grained Detoxification via Instance-Level Prefixes for Large Language Models

要約

大規模言語モデル (LLM) のトレーニングを通じて、自然言語処理 (NLP) タスクで目覚ましい結果が達成されました。
ただし、これらのモデルは、特定のプロンプトに応じて、侮辱、脅迫、冒涜などの有害なコンテンツを生成することがあるため、実用性が制限されます。
この問題に取り組むために、さまざまな微調整ベースおよびデコードベースのアプローチが毒性を軽減するために利用されてきました。
ただし、これらの方法では通常、高品質のトレーニング データや補助モデルなどの追加コストが必要になります。
このペーパーでは、追加コストをかけずに有害なテキストを軽減するために、インスタンス レベルのプレフィックスによるきめ細かい無害化 (FGDILP) を提案します。
具体的には、FGDILP は、インスタンス レベルで、正の接頭辞が先頭に追加されたプロンプトと複数の負の接頭辞が先頭に追加されたプロンプトを使用して、アテンション スペース内の文脈化された表現を対比します。
これにより、きめの細かい亜毒性ベクターの構築が可能になり、生のプロンプトが提供された場合に正常な生成プロセスを修正するためにそれらを融合することで協調的な解毒が可能になります。
FGDILP により、発話レベルと文脈レベルの両方で毒性に関して制御されたテキスト生成が可能になることを検証します。
私たちの方法は、生成の流暢さと多様性にわずかなコストを伴いますが、解毒においてプロンプトベースのベースラインを上回ります。

要約(オリジナル)

Impressive results have been achieved in natural language processing (NLP) tasks through the training of large language models (LLMs). However, these models occasionally produce toxic content such as insults, threats, and profanity in response to certain prompts, thereby constraining their practical utility. To tackle this issue, various finetuning-based and decoding-based approaches have been utilized to mitigate toxicity. However, these methods typically necessitate additional costs such as high-quality training data or auxiliary models. In this paper, we propose fine-grained detoxification via instance-level prefixes (FGDILP) to mitigate toxic text without additional cost. Specifically, FGDILP contrasts the contextualized representation in attention space using a positive prefix-prepended prompt against multiple negative prefix-prepended prompts at the instance level. This allows for constructing fine-grained subtoxicity vectors, which enables collaborative detoxification by fusing them to correct the normal generation process when provided with a raw prompt. We validate that FGDILP enables controlled text generation with regard to toxicity at both the utterance and context levels. Our method surpasses prompt-based baselines in detoxification, although at a slight cost to generation fluency and diversity.

arxiv情報

著者 Xin Yi,Linlin Wang,Xiaoling Wang,Liang He
発行日 2024-02-26 02:37:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク