Key ingredients for effective zero-shot cross-lingual knowledge transfer in generative tasks

要約

ゼロショットのクロスリンガル知識伝達により、ある言語のタスクに合わせて微調整された多言語の事前トレーニング済み言語モデルが可能になり、このタスクを他の言語で予測できます。
自然言語理解タスクについては広く研究されていますが、記述された設定については生成については十分に研究されていません。
以前の研究では、間違った言語で生成されるという頻繁な問題に気づき、通常はバックボーン モデルとして mT5 を使用して、それに対処するアプローチを提案しました。
この研究では、代替バックボーン モデル、つまり mBART と NLLB-200 も含め、統一設定で文献から提案されているさまざまなアプローチを比較します。
まず、微調整に使用される学習率の調整の重要性を強調します。これは、間違った言語で生成される問題を大幅に軽減するのに役立ちます。
次に、注意深く学習率を調整すると、モデルの単純な完全な微調整が非常に強力なベースラインとして機能し、代替アプローチではわずかな改善しか得られないことを示します。
最後に、mBART は同じサイズの mT5 と同様に機能し、場合によっては NLLB-200 が競合できることがわかりました。
私たちの最終的なゼロショット モデルは、通常、生成時のゼロショット言語間転送の上限ベースラインと考えられるデータ変換に基づくアプローチのパフォーマンスに達します。

要約(オリジナル)

Zero-shot cross-lingual knowledge transfer enables a multilingual pretrained language model, finetuned on a task in one language, make predictions for this task in other languages. While being broadly studied for natural language understanding tasks, the described setting is understudied for generation. Previous works notice a frequent problem of generation in a wrong language and propose approaches to address it, usually using mT5 as a backbone model. In this work we compare various approaches proposed from the literature in unified settings, also including alternative backbone models, namely mBART and NLLB-200. We first underline the importance of tuning learning rate used for finetuning, which helps to substantially alleviate the problem of generation in the wrong language. Then, we show that with careful learning rate tuning, the simple full finetuning of the model acts as a very strong baseline and alternative approaches bring only marginal improvements. Finally, we find that mBART performs similarly to mT5 of the same size, and NLLB-200 can be competitive in some cases. Our final zero-shot models reach the performance of the approach based on data translation which is usually considered as an upper baseline for zero-shot cross-lingual transfer in generation.

arxiv情報

著者 Nadezhda Chirkova,Vassilina Nikoulina
発行日 2024-04-22 17:32:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク