TransliCo: A Contrastive Learning Framework to Address the Script Barrier in Multilingual Pretrained Language Models

要約

世界の 7,000 以上の言語は、少なくとも 293 の文字で書かれています。
さまざまな理由により、多くの密接に関連した言語は異なるスクリプトを使用しているため、多言語事前トレーニング済み言語モデル (mPLM) が語彙の重複を通じて言語を超えた知識を学習することが困難になっています。
その結果、mPLM はスクリプトの壁に直面します。異なるスクリプトの表現は異なる部分空間に配置され、その結果、異なるスクリプトの言語が最適に実行されない言語間転送が発生する可能性があります。
この問題に対処するために、私たちは、音訳対比モデリング (TCM) 目​​標を最適化するフレームワークである TransliCo を提案します。これは、トレーニング データ内の文と統一された文字 (この場合はラテン語) での音訳を対比することによって mPLM を微調整するためです。
異なるスクリプトの表現空間の均一性。
500 以上の言語で事前トレーニングされた mPLM である Glot500-m をソース モデルとして使用し、そのトレーニング データのごく一部 (5%) で微調整し、結果のモデルを Furina と呼びます。
私たちは、Furina が異なるスクリプトからの表現をより適切に調整するだけでなく、さまざまなゼロショットの言語間転送タスクにおいてオリジナルの Glot500-m よりも優れていることを示します。
さらに、言語が地域的な特徴を示しながらも異なる文字を使用するインド語グループのケーススタディでは、一貫した改善を達成しました。
私たちはコードとモデルを公開しています。

要約(オリジナル)

The world’s more than 7000 languages are written in at least 293 scripts. Due to various reasons, many closely related languages use different scripts, which poses a difficulty for multilingual pretrained language models (mPLMs) in learning crosslingual knowledge through lexical overlap. As a consequence, mPLMs are faced with a script barrier: representations from different scripts are located in different subspaces, which can result in crosslingual transfer involving languages of different scripts performing suboptimally. To address this problem, we propose TransliCo, a framework that optimizes the Transliteration Contrastive Modeling (TCM) objective to fine-tune an mPLM by contrasting sentences in its training data and their transliterations in a unified script (in our case Latin), which enhances uniformity in the representation space for different scripts. Using Glot500-m, an mPLM pretrained on over 500 languages, as our source model, we fine-tune it on a small portion (5%) of its training data, and refer to the resulting model as Furina. We show that Furina not only better aligns representations from distinct scripts but also outperforms the original Glot500-m on various zero-shot crosslingual transfer tasks. Additionally, we achieve consistent improvement in a case study on the Indic group where the languages exhibit areal features but use different scripts. We make our code and models publicly available.

arxiv情報

著者 Yihong Liu,Chunlan Ma,Haotian Ye,Hinrich Schütze
発行日 2024-05-23 13:30:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク