An Efficient Approach for Studying Cross-Lingual Transfer in Multilingual Language Models

要約

事前トレーニングされた多言語モデル (MLM) のゼロショット言語間伝達のための能力と有効性は十分に確立されています。
しかし、特に大規模な多言語を使用する LM の複雑な設定では、肯定的または否定的な伝達の現象と言語選択の影響を完全に理解する必要があります。
私たちは、別のターゲット言語でのゼロショット パフォーマンスにおける転送言語の影響を研究するための \textit{効率的} 方法を提案します。
以前の研究とは異なり、私たちのアプローチでは、専用のアダプター ユニットを使用して、下流のタスクを言語から切り離します。
私たちの調査結果は、一部の言語は他の言語に大きな影響を与えない一方で、一部の言語、特に事前トレーニング中に見られない言語は、異なるターゲット言語にとって非常に有益または有害になる可能性があることを示唆しています。
すべてのターゲット言語にとって有益な転送言語は存在しないことがわかりました。
興味深いことに、これまで MLM が利用できなかった言語が、ほぼすべての言語からの移行によって一貫して恩恵を受けていることが観察されています。
さらに、モジュール方式のアプローチを使用して、ネガティブな干渉を効率的に定量化し、それに応じて言語を分類します。
さらに、ターゲット言語のパフォーマンス向上に一貫してつながる、有望な転送ターゲット言語構成のリストを提供します。
コードとデータは公開されています: https://github.com/ffaisal93/neg_inf

要約(オリジナル)

The capacity and effectiveness of pre-trained multilingual models (MLMs) for zero-shot cross-lingual transfer is well established. However, phenomena of positive or negative transfer, and the effect of language choice still need to be fully understood, especially in the complex setting of massively multilingual LMs. We propose an \textit{efficient} method to study transfer language influence in zero-shot performance on another target language. Unlike previous work, our approach disentangles downstream tasks from language, using dedicated adapter units. Our findings suggest that some languages do not largely affect others, while some languages, especially ones unseen during pre-training, can be extremely beneficial or detrimental for different target languages. We find that no transfer language is beneficial for all target languages. We do, curiously, observe languages previously unseen by MLMs consistently benefit from transfer from almost any language. We additionally use our modular approach to quantify negative interference efficiently and categorize languages accordingly. Furthermore, we provide a list of promising transfer-target language configurations that consistently lead to target language performance improvements. Code and data are publicly available: https://github.com/ffaisal93/neg_inf

arxiv情報

著者 Fahim Faisal,Antonios Anastasopoulos
発行日 2024-03-29 09:52:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク