Adding Instructions during Pretraining: Effective Way of Controlling Toxicity in Language Models

要約

さまざまな自然言語処理 (NLP) タスクを解決するには、事前トレーニングされた大規模な言語モデルが不可欠になっています。
ただし、有毒なコンテンツを生成するため、実際のアプリケーションに安全に展開することは困難です。
この課題に対処するために、その有用性を損なうことなくモデルの毒性を大幅に軽減する 2 つの新しい事前トレーニング データ拡張戦略を提案します。
私たちの 2 つの戦略は次のとおりです。(1) MEDA: 生の毒性スコアをメタデータとしてトレーニング前のサンプルに追加し、(2) INST: それらのサンプルに毒性を示す指示を追加します。
私たちの結果は、5 つのベンチマーク NLP タスクで精度を維持しながら、4 つのバイアス検出タスクで AUC スコアを 1.3% 改善しながら、最高のパフォーマンスを発揮する戦略 (INST) が毒性確率を最大 61% まで大幅に削減することを示しています。
また、トレーニング サンプルの数とモデル パラメーターの数をスケーリングすることにより、手法の一般化可能性を示します。

要約(オリジナル)

Pretrained large language models have become indispensable for solving various natural language processing (NLP) tasks. However, safely deploying them in real world applications is challenging because they generate toxic content. To address this challenge, we propose two novel pretraining data augmentation strategies that significantly reduce model toxicity without compromising its utility. Our two strategies are: (1) MEDA: adds raw toxicity score as meta-data to the pretraining samples, and (2) INST: adds instructions to those samples indicating their toxicity. Our results indicate that our best performing strategy (INST) substantially reduces the toxicity probability up to 61% while preserving the accuracy on five benchmark NLP tasks as well as improving AUC scores on four bias detection tasks by 1.3%. We also demonstrate the generalizability of our techniques by scaling the number of training samples and the number of model parameters.

arxiv情報

著者 Shrimai Prabhumoye,Mostofa Patwary,Mohammad Shoeybi,Bryan Catanzaro
発行日 2023-02-14 23:00:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク