Mitigating Text Toxicity with Counterfactual Generation

要約

有害性の軽減は、攻撃的または有害な意味を削除するためにテキストを言い換えることで構成されます。
ニューラル自然言語処理 (NLP) モデルは、テキストの毒性をターゲットにして軽減するために広く使用されています。
しかし、既存の方法では、最初の無害な意味を維持しながらテキストを無毒化することはできません。
この研究では、テキストの毒性をターゲットにして軽減するために、eXplainable AI (XAI) 分野からの反事実生成手法を適用することを提案します。
特に、有害なテキストと無害なテキストを区別する有害性分類器に局所的特徴の重要性と反事実生成手法を適用することにより、テキストの無毒化を実行します。
私たちは 3 つのデータセットで反事実生成を通じてテキストの無害化を実行し、私たちのアプローチを 3 つの競合他社と比較します。
自動評価と人間による評価により、最近開発された NLP 反事実生成ツールは、古典的な解毒方法と比較して、最初のテキストの意味をよりよく保存しながら、毒性を正確に軽減できることが示されています。
最後に、自動解毒ツールの使用から一歩下がって、毒性の多義的な性質と解毒ツールの悪意のある使用のリスクを管理する方法について説明します。
この研究は、反事実の生成とテキストの無毒化の間のギャップを埋める初めてのものであり、XAI メソッドのより実践的な応用への道を開きます。

要約(オリジナル)

Toxicity mitigation consists in rephrasing text in order to remove offensive or harmful meaning. Neural natural language processing (NLP) models have been widely used to target and mitigate textual toxicity. However, existing methods fail to detoxify text while preserving the initial non-toxic meaning at the same time. In this work, we propose to apply counterfactual generation methods from the eXplainable AI (XAI) field to target and mitigate textual toxicity. In particular, we perform text detoxification by applying local feature importance and counterfactual generation methods to a toxicity classifier distinguishing between toxic and non-toxic texts. We carry out text detoxification through counterfactual generation on three datasets and compare our approach to three competitors. Automatic and human evaluations show that recently developed NLP counterfactual generators can mitigate toxicity accurately while better preserving the meaning of the initial text as compared to classical detoxification methods. Finally, we take a step back from using automated detoxification tools, and discuss how to manage the polysemous nature of toxicity and the risk of malicious use of detoxification tools. This work is the first to bridge the gap between counterfactual generation and text detoxification and paves the way towards more practical application of XAI methods.

arxiv情報

著者 Milan Bhan,Jean-Noel Vittaut,Nina Achache,Victor Legrand,Nicolas Chesneau,Annabelle Blangero,Juliette Murris,Marie-Jeanne Lesot
発行日 2024-05-16 09:52:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク