要約
ソーシャル メディア データは研究にとって貴重なリソースですが、広範囲にわたる非標準語 (ニューサウスウェールズ州) が含まれています。
こうした不規則性は、NLP ツールの効果的な運用を妨げます。
ベトナム語の現在の最先端の手法では、手動ルールの作成や多段階の深層学習フレームワークの実装を伴う語彙の正規化の問題としてこの問題に対処しており、複雑なルールを作成するために多大な労力が必要です。
対照的に、私たちのアプローチは単純で、シーケンスツーシーケンス (Seq2Seq) モデルのみを採用しています。
この研究では、アノテーター間の一致が 0.9014 である人間によるアノテーションが付けられた 2,181 件のコメントで構成される、テキスト正規化用のデータセットを提供します。
テキストの正規化に Seq2Seq モデルを利用することで、達成される精度が 70% にわずかに届かないことが結果から明らかになりました。
それにもかかわらず、テキスト正規化によりヘイトスピーチ検出 (HSD) タスクの精度が約 2% 向上し、複雑な NLP タスクのパフォーマンスを向上させる可能性があることが実証されました。
私たちのデータセットは研究目的でアクセスできます。
要約(オリジナル)
Social media data is a valuable resource for research, yet it contains a wide range of non-standard words (NSW). These irregularities hinder the effective operation of NLP tools. Current state-of-the-art methods for the Vietnamese language address this issue as a problem of lexical normalization, involving the creation of manual rules or the implementation of multi-staged deep learning frameworks, which necessitate extensive efforts to craft intricate rules. In contrast, our approach is straightforward, employing solely a sequence-to-sequence (Seq2Seq) model. In this research, we provide a dataset for textual normalization, comprising 2,181 human-annotated comments with an inter-annotator agreement of 0.9014. By leveraging the Seq2Seq model for textual normalization, our results reveal that the accuracy achieved falls slightly short of 70%. Nevertheless, textual normalization enhances the accuracy of the Hate Speech Detection (HSD) task by approximately 2%, demonstrating its potential to improve the performance of complex NLP tasks. Our dataset is accessible for research purposes.
arxiv情報
著者 | Anh Thi-Hoang Nguyen,Dung Ha Nguyen,Nguyet Thi Nguyen,Khanh Thanh-Duy Ho,Kiet Van Nguyen |
発行日 | 2023-11-15 17:33:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google