sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting

要約

英語における LLM の目覚ましい成功にもかかわらず、英語以外の言語ではパフォーマンスに大きなギャップがあります。
これに対処するために、英語からの命令応答ペアを選択的に 50 の言語に翻訳することによって作成される、多言語合成命令チューニング データセット sPhinX を作成するための新しいレシピを紹介します。
sPhinX を使用して 2 つの最先端モデル、Phi-3-small と Mistral-7B を微調整し、推論、質問応答、
そして読解力。
私たちの結果は、sPhinX で微調整された Phi-3-small と Mistral-7B が、ベースラインと比較して、平均してそれぞれ 4.2%pt と 5%pt パフォーマンスが向上していることを示しています。
また、各微調整サンプルに N ショット サンプルを組み込む戦略も考案し、これらのモデルのパフォーマンスをそれぞれ 3% ポイントと 10% ポイント向上させます。
さらに、sPhinX は、サンプルの効率性と多様性に加え、同じベンチマークで他の多言語命令チューニング データセットよりも優れたパフォーマンスを発揮するため、データセットの作成コストが削減されます。
さらに、sPhinX を使用した命令チューニングは、ほとんどの標準 LLM ベンチマークで回帰を引き起こしません。

要約(オリジナル)

Despite the remarkable success of LLMs in English, there is a significant gap in performance in non-English languages. In order to address this, we introduce a novel recipe for creating a multilingual synthetic instruction tuning dataset, sPhinX, which is created by selectively translating instruction response pairs from English into 50 languages. We test the effectiveness of sPhinX by using it to fine-tune two state-of-the-art models, Phi-3-small and Mistral-7B and then evaluating them across a comprehensive suite of multilingual benchmarks that test reasoning, question answering, and reading comprehension. Our results show that Phi-3-small and Mistral-7B fine-tuned with sPhinX perform better on an average by 4.2%pt and 5%pt respectively as compared to the baselines. We also devise a strategy to incorporate N-shot examples in each fine-tuning sample which further boosts the performance of these models by 3%pt and 10%pt respectively. Additionally, sPhinX also outperforms other multilingual instruction tuning datasets on the same benchmarks along with being sample efficient and diverse, thereby reducing dataset creation costs. Additionally, instruction tuning with sPhinX does not lead to regression on most standard LLM benchmarks.

arxiv情報

著者 Sanchit Ahuja,Kumar Tanmay,Hardik Hansrajbhai Chauhan,Barun Patra,Kriti Aggarwal,Luciano Del Corro,Arindam Mitra,Tejas Indulal Dhamecha,Ahmed Awadallah,Monojit Choudhary,Vishrav Chaudhary,Sunayana Sitaram
発行日 2024-07-16 17:23:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク