ViSoLex: An Open-Source Repository for Vietnamese Social Media Lexical Normalization


ViSoLex は、ベトナム語ソーシャル メディア テキストの語彙正規化という特有の課題に対処するために設計されたオープンソース システムです。
このプラットフォームは、非標準語 (NSW) ルックアップと語彙正規化という 2 つのコア サービスを提供し、ユーザーが非標準語 (NSW) の標準形式を取得し、NSW を含むテキストを標準化できるようにします。
ViSoLex のアーキテクチャは、事前トレーニングされた言語モデルと弱教師学習技術を統合して、正確かつ効率的な正規化を保証し、ベトナム語のラベル付きデータの不足を克服します。
さらに、ViSoLex は、さまざまなデータセットや研究要件に適応できる、柔軟でカスタマイズ可能なフレームワークを提供します。
ViSoLex は、ソース コードを公開することで、より堅牢なベトナム語自然言語処理ツールの開発に貢献し、語彙正規化のさらなる研究を促進することを目指しています。


ViSoLex is an open-source system designed to address the unique challenges of lexical normalization for Vietnamese social media text. The platform provides two core services: Non-Standard Word (NSW) Lookup and Lexical Normalization, enabling users to retrieve standard forms of informal language and standardize text containing NSWs. ViSoLex’s architecture integrates pre-trained language models and weakly supervised learning techniques to ensure accurate and efficient normalization, overcoming the scarcity of labeled data in Vietnamese. This paper details the system’s design, functionality, and its applications for researchers and non-technical users. Additionally, ViSoLex offers a flexible, customizable framework that can be adapted to various datasets and research requirements. By publishing the source code, ViSoLex aims to contribute to the development of more robust Vietnamese natural language processing tools and encourage further research in lexical normalization. Future directions include expanding the system’s capabilities for additional languages and improving the handling of more complex non-standard linguistic patterns.


著者 Anh Thi-Hoang Nguyen,Dung Ha Nguyen,Kiet Van Nguyen
発行日 2025-01-13 02:47:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL パーマリンク