要約
明示的なクロスリンガルトレーニングデータがなくても、多言語モデルはクロスリンガル転送を実現できます。
この転送を改善する一般的な方法の 1 つは、微調整の前に再調整ステップを実行することです。つまり、翻訳された文から単語のペアに対して同様の表現を構築するようにモデルをトレーニングすることです。
しかし、このような再調整方法は、言語やタスクにまたがる結果を常に改善するとは限らないことが判明しており、このため、調整された表現が言語を越えた伝達に本当に有益であるかどうかという疑問が生じています。
私たちは、アライメントが実際に、言語、モデル、ランダム シードを越えた言語間伝達と有意に相関しているという証拠を提供します。
主に下流のタスクとモデルに応じて、微調整が位置合わせに大きな影響を与える可能性があることを示します。
最後に、場合によっては再調整により言語間の伝達が改善されることを示し、再調整方法が大幅な改善をもたらす条件を特定します。
つまり、遠い言語に一般化し、より小さなモデルを使用する場合、および再整列ペアを抽出するために FastAlign ではなく二か国語辞書を使用する場合、再整列は、整列が言語間の転移と相関しているタスクでより効果的に機能することがわかります。
たとえば、英語とアラビア語の間の POS タグ付けの場合、再調整により distilmBERT の精度が +15.8 向上し、XLM-R Large よりも 1.7 優れたパフォーマンスを得ることができます。
したがって、スケーリングの代替として、より小規模な多言語モデルの再調整方法についてさらなる研究を行うことを提唱します。
要約(オリジナル)
Without any explicit cross-lingual training data, multilingual language models can achieve cross-lingual transfer. One common way to improve this transfer is to perform realignment steps before fine-tuning, i.e., to train the model to build similar representations for pairs of words from translated sentences. But such realignment methods were found to not always improve results across languages and tasks, which raises the question of whether aligned representations are truly beneficial for cross-lingual transfer. We provide evidence that alignment is actually significantly correlated with cross-lingual transfer across languages, models and random seeds. We show that fine-tuning can have a significant impact on alignment, depending mainly on the downstream task and the model. Finally, we show that realignment can, in some instances, improve cross-lingual transfer, and we identify conditions in which realignment methods provide significant improvements. Namely, we find that realignment works better on tasks for which alignment is correlated with cross-lingual transfer when generalizing to a distant language and with smaller models, as well as when using a bilingual dictionary rather than FastAlign to extract realignment pairs. For example, for POS-tagging, between English and Arabic, realignment can bring a +15.8 accuracy improvement on distilmBERT, even outperforming XLM-R Large by 1.7. We thus advocate for further research on realignment methods for smaller multilingual models as an alternative to scaling.
arxiv情報
| 著者 | Félix Gaschi,Patricio Cerda,Parisa Rastin,Yannick Toussaint |
| 発行日 | 2023-06-05 11:35:40+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google