Marathi-English Code-mixed Text Generation

要約

コードミキシングとは、異なる言語の言語要素を混ぜ合わせて意味のある文章を形成することですが、多言語環境では一般的であり、ヒンリッシュやミングリッシュのようなハイブリッド言語が生まれます。
インドで 3 番目に話されている言語であるマラーティー語は、正確さと形式を保つために英語を組み込むことがよくあります。
マラーティー語と英語 (ミンリッシュ) などのコードが混在した言語システムの開発は、リソースの制約に直面します。
この研究では、コード混合インデックス (CMI) およびコード混合度 (DCM) メトリクスで評価される、マラーティー語と英語のコード混合テキスト生成アルゴリズムを導入します。
2987 のコード混合質問全体で、平均 CMI 0.2、平均 DCM 7.4 を達成し、効果的でわかりやすいコード混合文であることを示しました。
これらの結果は、多言語社会における言語ギャップを埋める、強化された NLP ツールの可能性を示しています。

要約(オリジナル)

Code-mixing, the blending of linguistic elements from distinct languages to form meaningful sentences, is common in multilingual settings, yielding hybrid languages like Hinglish and Minglish. Marathi, India’s third most spoken language, often integrates English for precision and formality. Developing code-mixed language systems, like Marathi-English (Minglish), faces resource constraints. This research introduces a Marathi-English code-mixed text generation algorithm, assessed with Code Mixing Index (CMI) and Degree of Code Mixing (DCM) metrics. Across 2987 code-mixed questions, it achieved an average CMI of 0.2 and an average DCM of 7.4, indicating effective and comprehensible code-mixed sentences. These results offer potential for enhanced NLP tools, bridging linguistic gaps in multilingual societies.

arxiv情報

著者 Dhiraj Amin,Sharvari Govilkar,Sagar Kulkarni,Yash Shashikant Lalit,Arshi Ajaz Khwaja,Daries Xavier,Sahil Girijashankar Gupta
発行日 2023-09-28 06:51:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク