Self-Distillation for Model Stacking Unlocks Cross-Lingual NLU in 200+ Languages

要約

LLM は、テキスト生成だけでなく、自然言語理解 (NLU) タスクでも頼りになるソリューションになりました。
Web スケールのコーパスでの言語モデリングを通じて広範な知識を獲得した彼らは、英語 NLU に優れていますが、NLU 機能を過小評価されている言語に拡張するのに苦労しています。
対照的に、機械翻訳モデル (MT) は優れた多言語表現を生成し、リソースが少ない言語であっても優れた翻訳パフォーマンスをもたらします。
ただし、MT エンコーダーには、LLM が膨大なコーパスに対する言語モデリングのトレーニングを通じて取得する、包括的な NLU に必要な知識が不足しています。
この研究では、サンプル効率の高い自己蒸留を介して MT エンコーダを LLM バックボーンに直接統合することで、両方の利点を最大限に活用しています。
結果として得られる MT-LLM は、MT エンコーダーからの固有の多言語表現の調整を保持し、低リソース言語でも英語中心の LLM に埋め込まれた豊富な知識を活用できるようにします。
MT エンコーダと LLM を 1 つのモデルに統合することで、翻訳エラーの伝播と、個別の翻訳ベースの言語間転送 (翻訳テストなど) に固有の MT デコードの推論オーバーヘッドを軽減します。
3 つの著名な NLU タスクと 127 の主に低リソース言語にわたる評価により、MT-LLM は言語間転送において非常に効果的です。
MT-LLM は、同じ MT モデルに基づく翻訳テストよりも大幅かつ一貫して優れており、LLM の多言語理解が真に可能になることを示しています。

要約(オリジナル)

LLMs have become a go-to solution not just for text generation, but also for natural language understanding (NLU) tasks. Acquiring extensive knowledge through language modeling on web-scale corpora, they excel on English NLU, yet struggle to extend their NLU capabilities to underrepresented languages. In contrast, machine translation models (MT) produce excellent multilingual representations, resulting in strong translation performance even for low-resource languages. MT encoders, however, lack the knowledge necessary for comprehensive NLU that LLMs obtain through language modeling training on immense corpora. In this work, we get the best both worlds by integrating MT encoders directly into LLM backbones via sample-efficient self-distillation. The resulting MT-LLMs preserve the inherent multilingual representational alignment from the MT encoder, allowing lower-resource languages to tap into the rich knowledge embedded in English-centric LLMs. Merging the MT encoder and LLM in a single model, we mitigate the propagation of translation errors and inference overhead of MT decoding inherent to discrete translation-based cross-lingual transfer (e.g., translate-test). Evaluation spanning three prominent NLU tasks and 127 predominantly low-resource languages renders MT-LLMs highly effective in cross-lingual transfer. MT-LLMs substantially and consistently outperform translate-test based on the same MT model, showing that we truly unlock multilingual language understanding for LLMs.

arxiv情報

著者 Fabian David Schmidt,Philipp Borchert,Ivan Vulić,Goran Glavaš
発行日 2024-06-18 16:00:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク