Does Transliteration Help Multilingual Language Modeling?

要約

ほとんどの言語で大規模な代表コーパスが不足しているため、多言語言語モデル (MLLM) が既存のコーパスを最大限に抽出することが重要です。
この点で、スクリプトの多様性は、密接に関連する言語間の語彙の重複を減らすことにより、MLLM に課題を提示します。
したがって、異なるライティング スクリプトを使用する密接に関連する言語を共通のスクリプトに音訳すると、MLLM の下流タスクのパフォーマンスが向上する可能性があります。
このホワイト ペーパーでは、2 つの ALBERT モデルを事前トレーニングして、MLLM に対する音訳の影響を経験的に測定します。
特に、文字の多様性が世界で最も高いインド・アーリア語族に焦点を当てています。
その後、IndicGLUE ベンチマークでモデルを評価します。
Mann-Whitney の U 検定を実行して、音訳の効果が有意であるかどうかを厳密に検証します。
文字変換は、比較的リソースの多い言語に悪影響を与えることなく、リソースの少ない言語に利益をもたらすことがわかりました。
また、FLORES-101 データセットからの 8 つの言語の並列文に対して、中央カーネル配置 (CKA) を使用して、モデルの言語間表現の類似性 (CLRS) を測定します。
文字変換ベースのモデルの隠れた表現は、より高く、より安定した CLRS スコアを持っていることがわかります。
私たちのコードは Github (github.com/ibraheem-moosa/XLM-Indic) と Hugging Face Hub (huggingface.co/ibraheemmoosa/xlmindic-base-multiscript と huggingface.co/ibraheemmoosa/xlmindic-base-uniscript) で入手できます。

要約(オリジナル)

As there is a scarcity of large representative corpora for most languages, it is important for Multilingual Language Models (MLLM) to extract the most out of existing corpora. In this regard, script diversity presents a challenge to MLLMs by reducing lexical overlap among closely related languages. Therefore, transliterating closely related languages that use different writing scripts to a common script may improve the downstream task performance of MLLMs. In this paper, we pretrain two ALBERT models to empirically measure the effect of transliteration on MLLMs. We specifically focus on the Indo-Aryan language family, which has the highest script diversity in the world. Afterward, we evaluate our models on the IndicGLUE benchmark. We perform Mann-Whitney U test to rigorously verify whether the effect of transliteration is significant or not. We find that transliteration benefits the low-resource languages without negatively affecting the comparatively high-resource languages. We also measure the cross-lingual representation similarity (CLRS) of the models using centered kernel alignment (CKA) on parallel sentences of eight languages from the FLORES-101 dataset. We find that the hidden representations of the transliteration-based model have higher and more stable CLRS scores. Our code is available at Github (github.com/ibraheem-moosa/XLM-Indic) and Hugging Face Hub (huggingface.co/ibraheemmoosa/xlmindic-base-multiscript and huggingface.co/ibraheemmoosa/xlmindic-base-uniscript).

arxiv情報

著者 Ibraheem Muhammad Moosa,Mahmud Elahi Akhter,Ashfia Binte Habib
発行日 2023-03-27 15:38:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク