On the definition of toxicity in NLP

要約

毒性検出タスクにおける根本的な問題は、毒性が明確に定義されていないという事実にあります。
このため、モデルのトレーニングでは主観的で曖昧なデータに依存することになり、その結果、ガベージ イン – ガベージ アウトというロバストで不正確な結果が得られます。
この研究は、客観的かつ状況を認識するように設計された、ストレスレベルに基づいた毒性の新しい定義を示唆しています。
それと同様に、この新しい定義をデータセットの作成とモデルのトレーニングに適用する可能な方法についても説明します。

要約(オリジナル)

The fundamental problem in toxicity detection task lies in the fact that the toxicity is ill-defined. This causes us to rely on subjective and vague data in models’ training, which results in non-robust and non-accurate results: garbage in – garbage out. This work suggests a new, stress-level-based definition of toxicity designed to be objective and context-aware. On par with it, we also describe possible ways of applying this new definition to dataset creation and model training.

arxiv情報

著者 Sergey Berezin,Reza Farahbakhsh,Noel Crespi
発行日 2023-10-05 12:36:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク