Empirical study of pretrained multilingual language models for zero-shot cross-lingual knowledge transfer in generation

要約

ゼロショットの言語を越えた知識伝達により、ある言語のタスクに合わせて微調整された多言語事前トレーニング言語モデル (mPLM) が、このタスクを他の言語で予測できるようになります。
自然言語理解タスクについては広く研究されていますが、記述された設定については生成については十分に研究されていません。
以前の研究では、間違った言語で生成されるという頻繁な問題に気づき、通常はバックボーン モデルとして mT5 を使用して、それに対処するアプローチを提案しました。
この作業では、アダプターを使用した完全な微調整とパラメーター効率の高い微調整を考慮して、mBART や NLLB-200 などの代替 mPLM をテストします。
アダプターを備えた mBART は同じサイズの mT5 と同様に機能し、場合によっては NLLB-200 が競合できることがわかりました。
また、微調整に使用される学習率の調整の重要性も強調します。これは、間違った言語での生成の問題を軽減するのに役立ちます。

要約(オリジナル)

Zero-shot cross-lingual knowledge transfer enables the multilingual pretrained language model (mPLM), finetuned on a task in one language, make predictions for this task in other languages. While being broadly studied for natural language understanding tasks, the described setting is understudied for generation. Previous works notice a frequent problem of generation in a wrong language and propose approaches to address it, usually using mT5 as a backbone model. In this work, we test alternative mPLMs, such as mBART and NLLB-200, considering full finetuning and parameter-efficient finetuning with adapters. We find that mBART with adapters performs similarly to mT5 of the same size, and NLLB-200 can be competitive in some cases. We also underline the importance of tuning learning rate used for finetuning, which helps to alleviate the problem of generation in the wrong language.

arxiv情報

著者 Nadezhda Chirkova,Sheng Liang,Vassilina Nikoulina
発行日 2024-04-22 17:10:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク