Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed?

要約

今日の大規模言語モデル(LLM)の大部分は英語中心であり、主に英語のテキストで事前学習されている。しかし、ユーザーの期待に応えるためには、下流のアプリケーションに導入された時点で、モデルが多言語で適切に応答できる必要がある。これには、強力なクロスリンガル転送能力が必要である。本研究では、英語中心のLLMにおいて、言語横断的な汎化を引き出すために、ファインチューニング中に必要な最小限の多言語性を調査する。4つのLLMを用いた実験では、効果的な言語間汎化を引き出すためには、2~3言語程度の多言語指導チューニングが必要かつ十分であることがわかった。さらに、5つの異なるタスクでの評価により、多言語命令チューニングは、チャット設定のような入出力言語の一致を前提とする生成タスクで最も有益である一方、高度に構造化された分類スタイルのタスクではあまり重要ではないことが明らかになった。我々のコードとデータはhttps://github.com/ZurichNLP/multilingual-instruction-tuning。

要約(オリジナル)

The vast majority of today’s large language models (LLMs) are English-centric, having been pretrained predominantly on English text. Yet, in order to meet user expectations, models need to be able to respond appropriately in multiple languages once deployed in downstream applications. This requires strong cross-lingual transfer abilities. In this work, we investigate the minimal amount of multilinguality required during finetuning to elicit cross-lingual generalisation in English-centric LLMs. In experiments across four LLMs, we find that multilingual instruction tuning with as few as two to three languages is both necessary and sufficient to elicit effective cross-lingual generalisation, with the limiting factor being the degree to which a target language is seen during pretraining. Evaluations on five different tasks further reveal that multilingual instruction tuning is most beneficial for generative tasks that assume input/output language agreement, such as in chat settings, while being of less importance for highly structured classification-style tasks. Our code and data is available at https://github.com/ZurichNLP/multilingual-instruction-tuning.

arxiv情報

著者 Tannon Kew,Florian Schottmann,Rico Sennrich
発行日 2024-10-03 17:27:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク