mPLM-Sim: Better Cross-Lingual Similarity and Transfer in Multilingual Pretrained Language Models

要約

最近の多言語事前トレーニング言語モデル (mPLM) は、事前トレーニング中に明示的に提供されない、強力な言語固有のシグナルをエンコードすることが示されています。
mPLM を使用して言語の類似性を測定し、その後その類似性の結果を使用して、言語を越えた伝達を促進するためのソース言語を選択することが可能かどうかは未解決の問題です。
これを調査するために、多重並列コーパスを使用して mPLM から言語間の類似性を誘導する言語類似性尺度である mPLMSim を提案します。
私たちの研究では、mPLM-Sim が語彙統計、系統言語族、地理的分布域などの言語類似性の尺度と適度に高い相関を示すことが示されています。
また、相関性の低い言語に関するケーススタディも実施し、mPLM-Sim がより正確な類似性の結果をもたらすことを観察しました。
さらに、類似性の結果は、異なる mPLM および mPLM 内の異なるレイヤー間で異なることがわかりました。
さらに、低レベルの構文タスクと高レベルの意味タスクの両方で実験を行うことにより、mPLMSim がゼロショットの言語間伝達に有効であるかどうかを調査します。
実験結果は、mPLM-Sim が言語的尺度よりも優れたソース言語を選択できることを示しており、その結果、ゼロショット言語間の転送パフォーマンスが 1% ~ 2% 向上します。

要約(オリジナル)

Recent multilingual pretrained language models (mPLMs) have been shown to encode strong language-specific signals, which are not explicitly provided during pretraining. It remains an open question whether it is feasible to employ mPLMs to measure language similarity, and subsequently use the similarity results to select source languages for boosting cross-lingual transfer. To investigate this, we propose mPLMSim, a language similarity measure that induces the similarities across languages from mPLMs using multi-parallel corpora. Our study shows that mPLM-Sim exhibits moderately high correlations with linguistic similarity measures, such as lexicostatistics, genealogical language family, and geographical sprachbund. We also conduct a case study on languages with low correlation and observe that mPLM-Sim yields more accurate similarity results. Additionally, we find that similarity results vary across different mPLMs and different layers within an mPLM. We further investigate whether mPLMSim is effective for zero-shot cross-lingual transfer by conducting experiments on both low-level syntactic tasks and high-level semantic tasks. The experimental results demonstrate that mPLM-Sim is capable of selecting better source languages than linguistic measures, resulting in a 1%-2% improvement in zero-shot cross-lingual transfer performance.

arxiv情報

著者 Peiqin Lin,Chengzhi Hu,Zheyu Zhang,André F. T. Martins,Hinrich Schütze
発行日 2024-01-29 09:03:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク