Tagengo: A Multilingual Chat Dataset

要約

オープンソースの大規模言語モデル (LLM) は、最近大幅な改善を示しています。
ただし、これらのモデルの多くは、一般的な話し言葉のみに焦点を当てています。
私たちは、人間が生成したプロンプトと合成応答で構成される、74 言語の 70,000 を超えるプロンプトと応答のペアの高品質なデータセットを提示します。
私たちはこのデータセットを使用して、最先端のオープンソース英語 LLM をトレーニングし、多言語でチャットできるようにします。
6 つの言語で MT-Bench チャット ベンチマークでモデルを評価したところ、当社の多言語モデルが各言語にわたって以前の最先端のオープンソース LLM よりも優れていることがわかりました。
さらに、選択したターゲット言語 (日本語) のデータのみで単純にトレーニングする場合と比較して、より多くの多言語データでトレーニングする方が、その言語でのパフォーマンスに有益であることがわかりました。
これらの結果は、よりアクセスしやすい LLM を作成するには、大量の高品質の多言語データでトレーニングする必要があることを示しています。

要約(オリジナル)

Open source large language models (LLMs) have shown great improvements in recent times. However, many of these models are focused solely on popular spoken languages. We present a high quality dataset of more than 70k prompt-response pairs in 74 languages which consist of human generated prompts and synthetic responses. We use this dataset to train a state-of-the-art open source English LLM to chat multilingually. We evaluate our model on MT-Bench chat benchmarks in 6 languages, finding that our multilingual model outperforms previous state-of-the-art open source LLMs across each language. We further find that training on more multilingual data is beneficial to the performance in a chosen target language (Japanese) compared to simply training on only data in that language. These results indicate the necessity of training on large amounts of high quality multilingual data to make a more accessible LLM.

arxiv情報

著者 Peter Devine
発行日 2024-05-21 09:06:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク