Crosslingual Generalization through Multitask Finetuning

要約

マルチタスク プロンプト ファインチューニング (MTF) は、大規模な言語モデルをゼロショット設定で新しいタスクに一般化するのに役立つことが示されていますが、これまでのところ、MTF の探索は英語のデータとモデルに焦点を当てています。
MTF を事前トレーニング済みの多言語 BLOOM および mT5 モデル ファミリに適用して、BLOOMZ および mT0 と呼ばれる微調整されたバリアントを生成します。
英語のプロンプトを使用して英語のタスクに関する大規模な多言語言語モデルを微調整すると、トレーニング前コーパスにのみ表示される英語以外の言語へのタスクの一般化が可能になることがわかりました。
英語プロンプトを使用した多言語タスクの微調整により、英語および英語以外のタスクのパフォーマンスがさらに向上し、さまざまな最先端のゼロショット結果が得られます。
また、各データセットの言語に合わせて英語から機械翻訳されたプロンプトを使用した多言語タスクの微調整についても調査します。
これらの機械翻訳されたプロンプトでトレーニングすると、それぞれの言語で人間が作成したプロンプトのパフォーマンスが向上することがわかりました。
驚くべきことに、モデルは意図的に見たことのない言語のタスクに対してゼロショット一般化できることがわかりました。
私たちは、モデルがタスクにも言語にも依存しない、より高度な機能を学習していると推測しています。
さらに、英語と機械翻訳されたプロンプトを備えた 46 言語の教師付きデータセットの複合体である xP3 を紹介します。
私たちのコード、データセット、モデルは https://github.com/bigscience-workshop/xmtf から無料で入手できます。

要約(オリジナル)

Multitask prompted finetuning (MTF) has been shown to help large language models generalize to new tasks in a zero-shot setting, but so far explorations of MTF have focused on English data and models. We apply MTF to the pretrained multilingual BLOOM and mT5 model families to produce finetuned variants called BLOOMZ and mT0. We find finetuning large multilingual language models on English tasks with English prompts allows for task generalization to non-English languages that appear only in the pretraining corpus. Finetuning on multilingual tasks with English prompts further improves performance on English and non-English tasks leading to various state-of-the-art zero-shot results. We also investigate finetuning on multilingual tasks with prompts that have been machine-translated from English to match the language of each dataset. We find training on these machine-translated prompts leads to better performance on human-written prompts in the respective languages. Surprisingly, we find models are capable of zero-shot generalization to tasks in languages they have never intentionally seen. We conjecture that the models are learning higher-level capabilities that are both task- and language-agnostic. In addition, we introduce xP3, a composite of supervised datasets in 46 languages with English and machine-translated prompts. Our code, datasets and models are freely available at https://github.com/bigscience-workshop/xmtf.

arxiv情報

著者 Niklas Muennighoff,Thomas Wang,Lintang Sutawika,Adam Roberts,Stella Biderman,Teven Le Scao,M Saiful Bari,Sheng Shen,Zheng-Xin Yong,Hailey Schoelkopf,Xiangru Tang,Dragomir Radev,Alham Fikri Aji,Khalid Almubarak,Samuel Albanie,Zaid Alyafeai,Albert Webson,Edward Raff,Colin Raffel
発行日 2023-05-29 16:40:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク