要約
多言語 LLM の作成には大きな課題が伴います。
新しい言語を採用するための LLM の事前トレーニングまたは微調整には、明らかに非常にコストがかかります。
さらに、ベンチマーク データセットと、多言語設定でモデルのパフォーマンスを測定するために使用されるメトリックに関して制限が存在します。
この文書では、前述の両方の課題に対する費用対効果の高いソリューションを提案します。
まず、Alpaca-52K、Dolly-15K、Vicuna Benchmark の 132 言語への翻訳で構成される多言語命令チューニング データセット (MITS) を紹介します。
次に、\emph{TaCo: Translation-Assisted Cross-Linguality} と呼ばれる新しい方法を提案します。これは、思考連鎖プロセスで翻訳を利用し、カリキュラム学習プロセスを通じて新しい言語で LLM を指導調整します。
概念実証として、私たちは命令チューニングされた Guanaco-33B モデルを実験し、3 つの低リソース言語と 1 つの高リソース言語で提案した TaCo メソッドを使用してさらなる命令チューニングを実行しました。
私たちの結果は、TaCo メソッドが Vicuna Benchmark データセットの低リソース言語で GPT-4 のスコア 82\% を達成し、命令チューニングのみと比較してパフォーマンスが 2 倍になったことを示しています。
さらに、TaCo は、リソースが少ない言語であっても、多言語 LLM の作成に有望です。
私たちはデータセットとモデル アダプター\脚注{https://github.com/UNHSAILLab/TaCo} をリリースし、研究コミュニティがこれらのリソースを活用して多言語 LLM の作業を進めることを奨励しています。
要約(オリジナル)
Creating multilingual LLMs poses a significant challenge. Pretraining or fine-tuning LLMs to adopt new languages is evidently very costly. Furthermore, there exist limitations concerning benchmark datasets and the metrics used to measure model performance in multilingual settings. This paper proposes cost-effective solutions to both aforementioned challenges. Firstly, we introduce the Multilingual Instruction-Tuning Dataset (MITS), comprised of Alpaca-52K, Dolly-15K, and Vicuna Benchmark translations into 132 languages. Secondly, we propose a new method called \emph{TaCo: Translation-Assisted Cross-Linguality}, which utilizes translations in a chain-of-thought process to instruction-tune LLMs on new languages through a curriculum-learning process. As a proof of concept, we experimented with the instruction-tuned Guanaco-33B model, performing further instruction tuning using our proposed TaCo method in three low-resource languages and one high-resource language. Our results indicate that the TaCo method impresses GPT-4 with an 82\% score for a low-resource language in the Vicuna Benchmark dataset, doubling the performance in contrast to instruction tuning alone. Furthermore, TaCo shows promise in creating multilingual LLMs, even for low-resource languages. We have released our datasets and model adapters\footnote{https://github.com/UNHSAILLab/TaCo} , encouraging the research community to utilize these resources to advance work on multilingual LLMs.
arxiv情報
著者 | Bibek Upadhayay,Vahid Behzadan |
発行日 | 2024-04-05 06:13:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google