Improving Informally Romanized Language Identification

要約

ラテンスクリプトは、多くの場合、非ラチンネイティブスクリプトを使用して言語を非公式に書くために使用されます。
多くの場合(たとえば、インドのほとんどの言語)、ラテンスクリプトには従来の単語の綴りはありません。したがって、書かれたテキストには高いスペルのばらつきがあります。
このようなローマ化は、ヒンディー語やウルドゥー語など、非常に混乱しやすいスクリプトに基づいて、通常簡単に区別される言語をレンダリングします。
この作業では、トレーニングセットを合成するために使用される方法を改善することにより、ローマ化されたテキストの言語識別(LID)精度を高めます。
自然な綴りの変動を組み込んだ合成サンプルのトレーニングは、トレーニングセットで利用可能な自然に発生する例や、トレーニングの高容量モデルでさえ含まれるよりも高い蓋システムの精度をもたらすことがわかります。
Bhasha-AbhijnaAnam評価セット(Madhani et al。、2023a)の20インド言語からの20インド言語のローマ化テキストでの最新の蓋のパフォーマンスを示し、報告された74.7%(事前に調達されたニューラルモデルを使用)からテストF1を改善し、85.4%までのテストF1を改善します。

要約(オリジナル)

The Latin script is often used to informally write languages with non-Latin native scripts. In many cases (e.g., most languages in India), there is no conventional spelling of words in the Latin script, hence there will be high spelling variability in written text. Such romanization renders languages that are normally easily distinguished based on script highly confusable, such as Hindi and Urdu. In this work, we increase language identification (LID) accuracy for romanized text by improving the methods used to synthesize training sets. We find that training on synthetic samples which incorporate natural spelling variation yields higher LID system accuracy than including available naturally occurring examples in the training set, or even training higher capacity models. We demonstrate new state-of-the-art LID performance on romanized text from 20 Indic languages in the Bhasha-Abhijnaanam evaluation set (Madhani et al., 2023a), improving test F1 from the reported 74.7% (using a pretrained neural model) to 85.4% using a linear classifier trained solely on synthetic data and 88.2% when also training on available harvested text.

arxiv情報

著者 Adrian Benton,Alexander Gutkin,Christo Kirov,Brian Roark
発行日 2025-04-30 11:36:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク