Graphemic Normalization of the Perso-Arabic Script

要約

1991 年に最初に登場して以来、Unicode でのペルソ アラビア語文字表現は 169 文字から 440 以上に増加し、元のアラビア語や他の多くの地域の正書法の標準文字、さまざまな発音記号、句読点を表す標準文字、さまざまな発音記号、および句読点を複数のコード ページにまたがって分散したアトミックな孤立文字になりました。
この文書は、専門家コミュニティによる以前の研究に基づいて、アラビア語やペルシア語などの最もよく文書化されている言語を超えてペルソアラビア語が提示する課題を文書化しています。
私たちは特に、視覚的にあいまいだが標準的に等価ではない文字の使用や、異なる正書法の文字の混合など、無視されがちな複数の問題の影響を受ける自然言語処理 (NLP) の状況に焦点を当てています。
混同の要因としては、入力方法の欠如、現代の正書法の不安定さ、読み書き能力の不足、正書法の伝統の喪失または欠如などが挙げられます。
私たちは、機械翻訳と統計的言語モデリングのタスクに対する、アラブ人文字ディアスポラの多様な言語族の 8 つの言語に対する文字正規化の影響を評価します。
私たちの結果は、正規化が適用されたときに考慮されたすべての言語のほとんどの条件でパフォーマンスが統計的に有意に向上していることを示しています。
私たちは、ペルソアラビア文字のバリエーションが存在する地域の正書法の伝統内でのペルソアラビア文字のバリエーションをより深く理解し、表現することが、特にリソースが不足している言語にとって現代の計算 NLP 技術のさらなる進歩にとって重要であると主張します。

要約(オリジナル)

Since its original appearance in 1991, the Perso-Arabic script representation in Unicode has grown from 169 to over 440 atomic isolated characters spread over several code pages representing standard letters, various diacritics and punctuation for the original Arabic and numerous other regional orthographic traditions. This paper documents the challenges that Perso-Arabic presents beyond the best-documented languages, such as Arabic and Persian, building on earlier work by the expert community. We particularly focus on the situation in natural language processing (NLP), which is affected by multiple, often neglected, issues such as the use of visually ambiguous yet canonically nonequivalent letters and the mixing of letters from different orthographies. Among the contributing conflating factors are the lack of input methods, the instability of modern orthographies, insufficient literacy, and loss or lack of orthographic tradition. We evaluate the effects of script normalization on eight languages from diverse language families in the Perso-Arabic script diaspora on machine translation and statistical language modeling tasks. Our results indicate statistically significant improvements in performance in most conditions for all the languages considered when normalization is applied. We argue that better understanding and representation of Perso-Arabic script variation within regional orthographic traditions, where those are present, is crucial for further progress of modern computational NLP techniques especially for languages with a paucity of resources.

arxiv情報

著者 Raiomond Doctor,Alexander Gutkin,Cibu Johny,Brian Roark,Richard Sproat
発行日 2024-01-29 13:03:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク