Language Detoxification with Attribute-Discriminative Latent Space

要約

トランスフォーマーベースの言語モデル (LM) は、自然言語理解タスクで目覚ましい結果を達成しましたが、侮辱、脅迫、冒涜などの有害なテキストを生成する可能性もあり、現実世界への応用が制限されます。
この問題を克服するために、いくつかのテキスト生成アプローチは、追加の LM または摂動を使用して有害なテキストを無毒化することを目的としています。
ただし、これまでの方法では過剰なメモリ、計算、時間が必要となり、実際のアプリケーションでは深刻なボトルネックとなっていました。
このような制限に対処するために、我々は属性識別潜在空間を使用した言語解毒のための効果的かつ効率的な方法を提案します。
具体的には、元の Transformer LM の潜在空間を、射影ブロックと属性弁別器を使用して属性ごとにテキストを適切に分離する識別潜在空間に射影します。
これにより、LM は、メモリと計算のオーバーヘッドを最小限に抑えながら、毒性のないテキスト生成を制御できます。
私たちは、無害化された言語と対話生成タスクに関するモデルである属性識別言語モデル (ADLM) を検証します。このモデルでは、私たちのメソッドがパフォーマンスと効率の両方でベースラインを大幅に上回っています。

要約(オリジナル)

Transformer-based Language Models (LMs) have achieved impressive results on natural language understanding tasks, but they can also generate toxic text such as insults, threats, and profanity, limiting their real-world applications. To overcome this issue, a few text generation approaches aim to detoxify toxic texts using additional LMs or perturbations. However, previous methods require excessive memory, computations, and time which are serious bottlenecks in their real-world application. To address such limitations, we propose an effective yet efficient method for language detoxification using an attribute-discriminative latent space. Specifically, we project the latent space of an original Transformer LM onto a discriminative latent space that well-separates texts by their attributes using a projection block and an attribute discriminator. This allows the LM to control the text generation to be non-toxic with minimal memory and computation overhead. We validate our model, Attribute-Discriminative Language Model (ADLM) on detoxified language and dialogue generation tasks, on which our method significantly outperforms baselines both in performance and efficiency.

arxiv情報

著者 Jin Myung Kwak,Minseon Kim,Sung Ju Hwang
発行日 2023-07-05 04:21:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク