Mitigating Language-Level Performance Disparity in mPLMs via Teacher Language Selection and Cross-lingual Self-Distillation

要約

大規模な多言語の事前トレーニング済み言語モデル (mPLM) は、言語をまたがるタスクで優れたパフォーマンスをもたらしますが、同じ mPLM 内の言語が異なるとパフォーマンスに大きな差異が存在します。
以前の研究では、多言語データを使用して mPLM を微調整することを監視することで、これらの格差を縮小しようとしました。
ただし、ラベル付き多言語データの取得には時間がかかり、限られたラベル付き多言語データを使用して mPLM を微調整しても、ラベル付きデータに固有の知識がカプセル化されるだけです。
したがって、私たちは ALSACE を導入して、パフォーマンスの高い言語から学習した知識を活用して、同じ mPLM 内でパフォーマンスの低い言語をガイドし、追加のラベル付き多言語データの必要性を排除します。
実験の結果、ALSACE はさまざまな mPLM 間の言語レベルのパフォーマンス格差を効果的に軽減し、フル リソース設定から限られたリソース設定に至るまで、さまざまな多言語 NLU タスクで競争力のあるパフォーマンスを示していることが示されています。
私たちのアプローチのコードは https://github.com/pkunlp-icler/ALSACE で入手できます。

要約(オリジナル)

Large-scale multilingual Pretrained Language Models (mPLMs) yield impressive performance on cross-language tasks, yet significant performance disparities exist across different languages within the same mPLM. Previous studies endeavored to narrow these disparities by supervise fine-tuning the mPLMs with multilingual data. However, obtaining labeled multilingual data is time-consuming, and fine-tuning mPLM with limited labeled multilingual data merely encapsulates the knowledge specific to the labeled data. Therefore, we introduce ALSACE to leverage the learned knowledge from the well-performing languages to guide under-performing ones within the same mPLM, eliminating the need for additional labeled multilingual data. Experiments show that ALSACE effectively mitigates language-level performance disparity across various mPLMs while showing the competitive performance on different multilingual NLU tasks, ranging from full resource to limited resource settings. The code for our approach is available at https://github.com/pkunlp-icler/ALSACE.

arxiv情報

著者 Haozhe Zhao,Zefan Cai,Shuzheng Si,Liang Chen,Yufeng He,Kaikai An,Baobao Chang
発行日 2024-04-12 14:19:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク