Automatic Textual Normalization for Hate Speech Detection

要約

ソーシャルメディア・データは研究のための貴重なリソースであるが、非標準語(NSW)が幅広く含まれている。これらの不規則性は、NLPツールの効果的な運用を妨げる。ベトナム語に関する現在の最新手法は、この問題を語彙正規化の問題として扱っており、手作業によるルール作成や、多段階のディープラーニングフレームワークの実装が必要である。対照的に、我々のアプローチは、シーケンスツーシーケンス(Seq2Seq)モデルのみを採用した単純なものである。本研究では、テキスト正規化のためのデータセットを提供する。このデータセットは、2,181の人間による注釈付きコメントで構成され、注釈者間の一致度は0.9014である。Seq2Seqモデルをテキスト正規化に活用した結果、達成された精度は70%にわずかに及ばないことが明らかになった。それにもかかわらず、テキスト正規化はヘイトスピーチ検出(HSD)タスクの精度を約2%向上させ、複雑な自然言語処理タスクのパフォーマンスを向上させる可能性を示している。我々のデータセットは研究目的で利用可能である。

要約(オリジナル)

Social media data is a valuable resource for research, yet it contains a wide range of non-standard words (NSW). These irregularities hinder the effective operation of NLP tools. Current state-of-the-art methods for the Vietnamese language address this issue as a problem of lexical normalization, involving the creation of manual rules or the implementation of multi-staged deep learning frameworks, which necessitate extensive efforts to craft intricate rules. In contrast, our approach is straightforward, employing solely a sequence-to-sequence (Seq2Seq) model. In this research, we provide a dataset for textual normalization, comprising 2,181 human-annotated comments with an inter-annotator agreement of 0.9014. By leveraging the Seq2Seq model for textual normalization, our results reveal that the accuracy achieved falls slightly short of 70%. Nevertheless, textual normalization enhances the accuracy of the Hate Speech Detection (HSD) task by approximately 2%, demonstrating its potential to improve the performance of complex NLP tasks. Our dataset is accessible for research purposes.

arxiv情報

著者 Anh Thi-Hoang Nguyen,Dung Ha Nguyen,Nguyet Thi Nguyen,Khanh Thanh-Duy Ho,Kiet Van Nguyen
発行日 2023-12-04 15:34:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク