A Weakly Supervised Data Labeling Framework for Machine Lexical Normalization in Vietnamese Social Media

要約

この研究では、ベトナム語のようなリソースの少ない言語のソーシャル メディア テキストにおける語彙の正規化の課題に対処するための、革新的な自動ラベル付けフレームワークを紹介します。
ソーシャル メディア データは豊富で多様ですが、これらのコンテキストで使用される言語は進化し多様であるため、手動によるラベル付けは多大な労力と費用がかかります。
これらの問題に取り組むために、半教師あり学習と弱い監視手法を統合するフレームワークを提案します。
このアプローチにより、手動でのラベル付け作業を最小限に抑えながら、トレーニング データセットの品質が向上し、そのサイズが拡張されます。
私たちのフレームワークは生データに自動的にラベルを付け、非標準の語彙を標準化された形式に変換することで、トレーニング データの精度と一貫性を向上させます。
実験結果は、特に事前トレーニング済み言語モデルを利用する場合、ベトナム語テキストの正規化における弱い監視フレームワークの有効性を示しています。
提案されたフレームワークは、82.72% という優れた F1 スコアを達成し、最大 99.22% の精度で語彙の完全性を維持します。
さらに、さまざまな条件下で発音区別符号化されていないテキストを効果的に処理します。
このフレームワークにより、自然言語の正規化の品質が大幅に向上し、さまざまな NLP タスクの精度が向上し、平均精度が 1 ~ 3% 向上します。

要約(オリジナル)

This study introduces an innovative automatic labeling framework to address the challenges of lexical normalization in social media texts for low-resource languages like Vietnamese. Social media data is rich and diverse, but the evolving and varied language used in these contexts makes manual labeling labor-intensive and expensive. To tackle these issues, we propose a framework that integrates semi-supervised learning with weak supervision techniques. This approach enhances the quality of training dataset and expands its size while minimizing manual labeling efforts. Our framework automatically labels raw data, converting non-standard vocabulary into standardized forms, thereby improving the accuracy and consistency of the training data. Experimental results demonstrate the effectiveness of our weak supervision framework in normalizing Vietnamese text, especially when utilizing Pre-trained Language Models. The proposed framework achieves an impressive F1-score of 82.72% and maintains vocabulary integrity with an accuracy of up to 99.22%. Additionally, it effectively handles undiacritized text under various conditions. This framework significantly enhances natural language normalization quality and improves the accuracy of various NLP tasks, leading to an average accuracy increase of 1-3%.

arxiv情報

著者 Dung Ha Nguyen,Anh Thi Hoang Nguyen,Kiet Van Nguyen
発行日 2024-09-30 16:26:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク