Key ingredients for effective zero-shot cross-lingual knowledge transfer in generative tasks

要約

ゼロショットのクロスリンガル生成は、ある言語での生成タスクで多言語の事前トレーニング済み言語モデルを微調整し、それを使用して他の言語でこのタスクの予測を行うことを意味します。
以前の研究では、間違った言語で生成されるという頻繁な問題に気づき、通常はバックボーン モデルとして mT5 を使用して、それに対処するアプローチを提案しました。
この研究では、代替バックボーン モデル、つまり mBART と NLLB-200 も含め、統一設定で文献から提案されているさまざまなアプローチを比較します。
まず、微調整に使用される学習率の調整の重要性を強調します。これは、間違った言語で生成される問題を大幅に軽減するのに役立ちます。
次に、注意深く学習率を調整すると、モデルの単純な完全な微調整が非常に強力なベースラインとして機能し、代替アプローチではわずかな改善しか得られないことを示します。
最後に、mBART は同じサイズの mT5 と同様に機能し、場合によっては NLLB-200 が競合できることがわかりました。
私たちの最終モデルは、通常、ゼロショット言語間生成の上限ベースラインと考えられるデータ変換に基づいたアプローチのパフォーマンスに達します。

要約(オリジナル)

Zero-shot cross-lingual generation implies finetuning of the multilingual pretrained language model on a generation task in one language and then using it to make predictions for this task in other languages. Previous works notice a frequent problem of generation in a wrong language and propose approaches to address it, usually using mT5 as a backbone model. In this work we compare various approaches proposed from the literature in unified settings, also including alternative backbone models, namely mBART and NLLB-200. We first underline the importance of tuning learning rate used for finetuning, which helps to substantially alleviate the problem of generation in the wrong language. Then, we show that with careful learning rate tuning, the simple full finetuning of the model acts as a very strong baseline and alternative approaches bring only marginal improvements. Finally, we find that mBART performs similarly to mT5 of the same size, and NLLB-200 can be competitive in some cases. Our final models reach the performance of the approach based on data translation which is usually considered as an upper baseline for zero-shot cross-lingual generation.

arxiv情報

著者 Nadezhda Chirkova,Vassilina Nikoulina
発行日 2024-02-19 16:43:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク