ViLexNorm: A Lexical Normalization Corpus for Vietnamese Social Media Text

要約

自然言語処理 (NLP) の基本的なタスクである字句正規化には、単語を標準形式に変換することが含まれます。
このプロセスは、さまざまな下流の NLP タスクに大きな利益をもたらすことが証明されています。
この研究では、ベトナム語語彙正規化タスク用に開発された初のコーパスであるベトナム語語彙正規化 (ViLexNorm) を紹介します。
このコーパスは、ベトナムで最も人気のあるソーシャル メディア プラットフォームのパブリック コメントから得た、人間のアノテーターによって細心の注意を払って注釈が付けられた 10,000 組を超える文で構成されています。
コーパスの評価にはさまざまな方法が使用され、放置のまま (LAI) ベースラインでエラー削減率 (ERR) メトリクス (van der Goot、2019a) を使用した最高のパフォーマンスのシステムは 57.74% という結果を達成しました。
外部評価の場合、ViLexNorm でトレーニングされたモデルを採用すると、ベトナム語語彙正規化タスクが他の NLP タスクにプラスの影響を与えることが実証されます。
私たちのコーパスは研究目的にのみ公開されています。

要約(オリジナル)

Lexical normalization, a fundamental task in Natural Language Processing (NLP), involves the transformation of words into their canonical forms. This process has been proven to benefit various downstream NLP tasks greatly. In this work, we introduce Vietnamese Lexical Normalization (ViLexNorm), the first-ever corpus developed for the Vietnamese lexical normalization task. The corpus comprises over 10,000 pairs of sentences meticulously annotated by human annotators, sourced from public comments on Vietnam’s most popular social media platforms. Various methods were used to evaluate our corpus, and the best-performing system achieved a result of 57.74% using the Error Reduction Rate (ERR) metric (van der Goot, 2019a) with the Leave-As-Is (LAI) baseline. For extrinsic evaluation, employing the model trained on ViLexNorm demonstrates the positive impact of the Vietnamese lexical normalization task on other NLP tasks. Our corpus is publicly available exclusively for research purposes.

arxiv情報

著者 Thanh-Nhi Nguyen,Thanh-Phong Le,Kiet Van Nguyen
発行日 2024-01-31 07:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク