Unicode Normalization and Grapheme Parsing of Indic Languages

要約

インド言語の書記体系には、固有の水平単位として、複雑な書記素としても知られる正書法音節があります。
これらの言語の顕著な特徴は、子音/子音結合語、母音発音記号、および子音発音記号で構成される複雑な書記素単位であり、これらが合わさって独自の言語を形成します。
これらの言語の Unicode ベースの記述スキームは、多くの場合、これらの言語のこの機能を無視し、コネクター文字とフォント インタプリタの複雑なスキームを使用して単語を Unicode 文字の線形シーケンスとしてエンコードします。
数十の Unicode グリフを使用して数千の異なる固有のグリフ (複雑な書記素) を記述するこの方法により、不正な単語につながる深刻な曖昧さが生じます。
この論文では、2 つのライブラリを提案しています。i) インド言語の Unicode ベースのエンコード方式によって生じる不一致を正規化するためのノーマライザーと、ii) Abugida テキスト用の書記素パーサーです。
単語を視覚的に区別できる正書法音節または複雑な書記素とその構成要素に分解します。
私たちが提案するノーマライザーは、以前に使用されていた IndicNLP ノーマライザーよりも効率的かつ効果的なツールです。
さらに、当社のパーサーとノーマライザーは、堅牢なワードベースおよび NLP 実験で良好に動作したため、一般的な Abugida テキスト処理にも適したツールです。
この作業では 7 つの言語のスクリプトのパイプラインを報告し、より多くのスクリプトを統合するためのフレームワークを開発します。

要約(オリジナル)

Writing systems of Indic languages have orthographic syllables, also known as complex graphemes, as unique horizontal units. A prominent feature of these languages is these complex grapheme units that comprise consonants/consonant conjuncts, vowel diacritics, and consonant diacritics, which, together make a unique Language. Unicode-based writing schemes of these languages often disregard this feature of these languages and encode words as linear sequences of Unicode characters using an intricate scheme of connector characters and font interpreters. Due to this way of using a few dozen Unicode glyphs to write thousands of different unique glyphs (complex graphemes), there are serious ambiguities that lead to malformed words. In this paper, we are proposing two libraries: i) a normalizer for normalizing inconsistencies caused by a Unicode-based encoding scheme for Indic languages and ii) a grapheme parser for Abugida text. It deconstructs words into visually distinct orthographic syllables or complex graphemes and their constituents. Our proposed normalizer is a more efficient and effective tool than the previously used IndicNLP normalizer. Moreover, our parser and normalizer are also suitable tools for general Abugida text processing as they performed well in our robust word-based and NLP experiments. We report the pipeline for the scripts of 7 languages in this work and develop the framework for the integration of more scripts.

arxiv情報

著者 Nazmuddoha Ansary,Quazi Adibur Rahman Adib,Tahsin Reasat,Asif Shahriyar Sushmit,Ahmed Imtiaz Humayun,Sazia Mehnaz,Kanij Fatema,Mohammad Mamun Or Rashid,Farig Sadeque
発行日 2024-05-27 12:48:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク