TransliCo: A Contrastive Learning Framework to Address the Script Barrier in Multilingual Pretrained Language Models

要約

7,000 以上の言語を書面形式で表す 293 の文字があります。
さまざまな理由により、多くの密接に関連した言語は異なるスクリプトを使用しているため、多言語事前トレーニング済み言語モデル (mPLM) が語彙の重複を通じて言語を超えた知識を学習することが困難になっています。
その結果、mPLM にはスクリプト バリアが存在します。異なるスクリプトの表現は異なる部分空間に配置されます。これは、異なるスクリプトの言語が関与する言語間転送が次善のパフォーマンスを示す理由を示す強力な指標です。
この問題に対処するために、私たちは、トレーニング データ内の文と統一された文字 (この場合はラテン語) での音訳を対比することで mPLM を微調整する音訳対照モデリング (TCM) を含むシンプルなフレームワーク TransliCo を提案します。これにより、均一性が保証されます。
さまざまなスクリプトの表現空間で。
500 以上の言語で事前トレーニングされた mPLM である Glot500-m をソース モデルとして使用し、そのトレーニング データのごく一部 (5\%) でそれを検索調整し、結果のモデルを Furina と呼びます。
私たちは、Furina が異なる文字からの表現をより適切に調整するだけでなく、さまざまな言語間転送タスクにおいてオリジナルの Glot500-m よりも優れていることを示します。
さらに、言語同士の関連性は高いものの、異なる文字を使用するインド語グループのケーススタディでは、一貫した改善を達成しました。
私たちはコードとモデルを公開しています。

要約(オリジナル)

There are 293 scripts representing over 7,000 languages in the written form. Due to various reasons, many closely related languages use different scripts, which poses difficulty for multilingual pretrained language models (mPLMs) in learning crosslingual knowledge through lexical overlap. As a result, mPLMs present a script barrier: representations from different scripts are located in different subspaces, which is a strong indicator of why crosslingual transfer involving languages of different scripts shows sub-optimal performance. To address this problem, we propose a simple framework TransliCo that contains Transliteration Contrastive Modeling (TCM) to fine-tune an mPLM by contrasting sentences in its training data and their transliterations in a unified script (Latn, in our case), which ensures uniformity in the representation space for different scripts. Using Glot500-m, an mPLM pretrained on over 500 languages, as our source model, we find-tune it on a small portion (5\%) of its training data, and refer to the resulting model as Furina. We show that Furina not only better aligns representations from distinct scripts but also outperforms the original Glot500-m on various crosslingual transfer tasks. Additionally, we achieve consistent improvement in a case study on the Indic group where the languages are highly related but use different scripts. We make our code and models publicly available.

arxiv情報

著者 Yihong Liu,Chunlan Ma,Haotian Ye,Hinrich Schütze
発行日 2024-01-12 15:12:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク