ViSoLex: An Open-Source Repository for Vietnamese Social Media Lexical Normalization

要約

ViSoLex は、ベトナム語ソーシャル メディア テキストの語彙正規化という特有の課題に対処するために設計されたオープンソース システムです。
このプラットフォームは、非標準語 (NSW) ルックアップと語彙正規化という 2 つのコア サービスを提供し、ユーザーが非標準語 (NSW) の標準形式を取得し、NSW を含むテキストを標準化できるようにします。
ViSoLex のアーキテクチャは、事前トレーニングされた言語モデルと弱教師学習技術を統合して、正確かつ効率的な正規化を保証し、ベトナム語のラベル付きデータの不足を克服します。
このペーパーでは、システムの設計、機能、および研究者および技術者以外のユーザー向けのアプリケーションについて詳しく説明します。
さらに、ViSoLex は、さまざまなデータセットや研究要件に適応できる、柔軟でカスタマイズ可能なフレームワークを提供します。
ViSoLex は、ソース コードを公開することで、より堅牢なベトナム語自然言語処理ツールの開発に貢献し、語彙正規化のさらなる研究を促進することを目指しています。
将来の方向性としては、追加言語に対するシステムの機能の拡張と、より複雑な非標準の言語パターンの処理の改善が含まれます。

要約(オリジナル)

ViSoLex is an open-source system designed to address the unique challenges of lexical normalization for Vietnamese social media text. The platform provides two core services: Non-Standard Word (NSW) Lookup and Lexical Normalization, enabling users to retrieve standard forms of informal language and standardize text containing NSWs. ViSoLex’s architecture integrates pre-trained language models and weakly supervised learning techniques to ensure accurate and efficient normalization, overcoming the scarcity of labeled data in Vietnamese. This paper details the system’s design, functionality, and its applications for researchers and non-technical users. Additionally, ViSoLex offers a flexible, customizable framework that can be adapted to various datasets and research requirements. By publishing the source code, ViSoLex aims to contribute to the development of more robust Vietnamese natural language processing tools and encourage further research in lexical normalization. Future directions include expanding the system’s capabilities for additional languages and improving the handling of more complex non-standard linguistic patterns.

arxiv情報

著者 Anh Thi-Hoang Nguyen,Dung Ha Nguyen,Kiet Van Nguyen
発行日 2025-01-13 02:47:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク