要約
デジタル通信の急速な成長により、多言語コミュニティでは、コードミックス、特にヒンディー語の英語の広範な使用が促進されています。
既存のデータセットは、多くの場合、ローマのテキストに焦点を当て、範囲が限られているか、RealWorld言語のニュアンスをキャプチャできない合成データに依存しています。
人間の注釈は、コード混合テキストの自然性と受容性を評価するために重要です。
これらの課題に対処するために、DevanagariとRomanの両方のスクリプトで3つの専門家アノテーターによって評価された100,970インスタンスで構成されるコードミックステキストの最大の手動注釈付きデータセットであるCom-Linguaを紹介します。
データセットは、言語識別、マトリックス言語識別、スピーチの一部のタグ付け、名前付きエンティティ認識、翻訳の5つの基本的なNLPタスクをサポートしています。
Comilinguaを使用してこれらのタスクでLLMを評価し、現在の多言語モデリング戦略の制限を明らかにし、コード混合テキスト処理機能の改善の必要性を強調します。
Comi-Linguaは、https://huggingface.co/datasets/lingoiitgn/comilinguaで公開されています。
要約(オリジナル)
The rapid growth of digital communication has driven the widespread use of code-mixing, particularly Hindi-English, in multilingual communities. Existing datasets often focus on romanized text, have limited scope, or rely on synthetic data, which fails to capture realworld language nuances. Human annotations are crucial for assessing the naturalness and acceptability of code-mixed text. To address these challenges, We introduce COMI-LINGUA, the largest manually annotated dataset for code-mixed text, comprising 100,970 instances evaluated by three expert annotators in both Devanagari and Roman scripts. The dataset supports five fundamental NLP tasks: Language Identification, Matrix Language Identification, Part-of-Speech Tagging, Named Entity Recognition, and Translation. We evaluate LLMs on these tasks using COMILINGUA, revealing limitations in current multilingual modeling strategies and emphasizing the need for improved code-mixed text processing capabilities. COMI-LINGUA is publically availabe at: https://huggingface.co/datasets/LingoIITGN/COMI-LINGUA.
arxiv情報
著者 | Rajvee Sheth,Himanshu Beniwal,Mayank Singh |
発行日 | 2025-03-27 16:36:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google