要約
言語解毒には、攻撃的な言語から毒性を除去することが含まれます。
ニュートラル毒性のペア付きデータセットは、解毒モデルをトレーニングするための簡単なアプローチを提供しますが、そのようなデータセットの作成はいくつかの課題を提示します。i)ペアのデータを構築するための人間の注釈の必要性、ii)攻撃的な用語の急速な進化、静的データセットの迅速な時代遅れになります。
これらの課題に取り組むために、K/DAと呼ばれる自動ペアのデータ生成パイプラインを紹介します。
このパイプラインは、暗黙の攻撃性とトレンドに沿ったスラングを備えた攻撃的な言語を生成するように設計されており、結果のデータセットが解毒モデルトレーニングに適しています。
K/DAによって生成されたデータセットは、既存の韓国のデータセットと比較して高いペアの一貫性と暗黙の攻撃性を示し、他の言語への適用性も示していることを実証します。
さらに、単純な命令微調整を備えた高性能解毒モデルの効果的なトレーニングを可能にします。
要約(オリジナル)
Language detoxification involves removing toxicity from offensive language. While a neutral-toxic paired dataset provides a straightforward approach for training detoxification models, creating such datasets presents several challenges: i) the need for human annotation to build paired data, and ii) the rapid evolution of offensive terms, rendering static datasets quickly outdated. To tackle these challenges, we introduce an automated paired data generation pipeline, called K/DA. This pipeline is designed to generate offensive language with implicit offensiveness and trend-aligned slang, making the resulting dataset suitable for detoxification model training. We demonstrate that the dataset generated by K/DA exhibits high pair consistency and greater implicit offensiveness compared to existing Korean datasets, and also demonstrates applicability to other languages. Furthermore, it enables effective training of a high-performing detoxification model with simple instruction fine-tuning.
arxiv情報
著者 | Minkyeong Jeon,Hyemin Jeong,Yerang Kim,Jiyoung Kim,Jae Hyeon Cho,Byung-Jun Lee |
発行日 | 2025-06-16 14:08:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google