要約
命令微調整 (IFT) は、大規模言語モデル (LLM) を命令に従うように調整するために重要です。
最近、多くの効果的な IFT データセットが導入されていますが、主に英語などの高リソース言語に焦点を当てています。
広範囲の言語とタスクにわたって LLM をより適切に調整するために、M2Lingual と呼ばれる、完全に合成された新規分類法 (Evol) に基づいた多言語、マルチターン命令微調整データセットを提案します。
これは、まず多様なシード例のセットを選択し、次に提案された Evol 分類法を利用してこれらのシードを複雑で挑戦的なマルチターン命令に変換することによって構築されます。
私たちは、さまざまな規模の LLM をトレーニングし、さまざまな言語セットでのパフォーマンスの向上を示すことで、M2Lingual の有効性を実証します。
私たちは、ガイド付き生成コード https://github.com/ServiceNow/M2Lingual を使用して 2 ステップの Evol 分類法を提供します。また、Evol で構築された初の完全合成、一般的およびタスク指向のマルチターン多言語データセット – M2Lingual も提供します。
: https://huggingface.co/datasets/ServiceNow-AI/ M2Lingual – 合計 182,000 の IFT ペアが含まれ、70 の言語と 17 以上の NLP タスクをカバーします。
要約(オリジナル)
Instruction finetuning (IFT) is critical for aligning Large Language Models (LLMs) to follow instructions. While many effective IFT datasets have been introduced recently, they predominantly focus on high-resource languages like English. To better align LLMs across a broad spectrum of languages and tasks, we propose a fully synthetic, novel taxonomy (Evol) guided Multilingual, Multi-turn instruction finetuning dataset, called M2Lingual. It is constructed by first selecting a diverse set of seed examples and then utilizing the proposed Evol taxonomy to convert these seeds into complex and challenging multi-turn instructions. We demonstrate the effectiveness of M2Lingual by training LLMs of varying sizes and showcasing the enhanced performance across a diverse set of languages. We contribute the 2 step Evol taxonomy with the guided generation code: https://github.com/ServiceNow/M2Lingual, as well as the first fully synthetic, general and task-oriented, multi-turn, multilingual dataset built with Evol – M2Lingual: https://huggingface.co/datasets/ServiceNow-AI/ M2Lingual – containing 182K total IFT pairs, covering 70 languages and 17+ NLP tasks.
arxiv情報
著者 | Rishabh Maheshwary,Vikas Yadav,Hoang Nguyen,Khyati Mahajan,Sathwik Tejaswi Madhusudhan |
発行日 | 2024-06-28 10:14:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google