GTA: Gated Toxicity Avoidance for LM Performance Preservation

要約

注意:この記事には不快感を与える可能性のある不快な表現が含まれています。
GPT-4 などの生成言語モデルの急速な進化により、さまざまな NLP 生成タスクで優れた結果が実証されました。
しかし、人種や性別に関連した不快な言葉が生成される可能性があるため、有害な言葉の発生を軽減するためにさまざまな制御可能なテキスト生成 (CTG) 方法が提案されています。
ただし、既存の CTG 手法は有害性を軽減するだけでなく、トピックの一貫性、文法、複雑さなど、言語モデルの生成パフォーマンスのいくつかの側面に悪影響を及ぼします。
このペーパーでは、これまでの方法の限界を調査し、あらゆる CTG 方法に適用できるシンプルなゲート毒性回避 (GTA) の形で新しいソリューションを紹介します。
また、さまざまなデータセットにわたる最先端の CTG 手法と比較することにより、提案された GTA の有効性を評価します。
私たちの発見は、ゲート毒性回避が、言語モデルの生成パフォーマンスを維持しながら、元の CTG 手法と同等のレベルの毒性低減を効率的に達成できることを明らかにしています。

要約(オリジナル)

Caution: This paper includes offensive words that could potentially cause unpleasantness. The fast-paced evolution of generative language models such as GPT-4 has demonstrated outstanding results in various NLP generation tasks. However, due to the potential generation of offensive words related to race or gender, various Controllable Text Generation (CTG) methods have been proposed to mitigate the occurrence of harmful words. However, existing CTG methods not only reduce toxicity but also negatively impact several aspects of the language model’s generation performance, including topic consistency, grammar, and perplexity. This paper explores the limitations of previous methods and introduces a novel solution in the form of a simple Gated Toxicity Avoidance (GTA) that can be applied to any CTG method. We also evaluate the effectiveness of the proposed GTA by comparing it with state-of-the-art CTG methods across various datasets. Our findings reveal that gated toxicity avoidance efficiently achieves comparable levels of toxicity reduction to the original CTG methods while preserving the generation performance of the language model.

arxiv情報

著者 Heegyu Kim,Hyunsouk Cho
発行日 2023-12-11 05:04:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク