要約
従来、大規模な言語モデルは、一般的な Web クロールまたはドメイン固有のデータのいずれかでトレーニングされてきました。
ただし、生成大規模言語モデルの最近の成功により、クロスドメイン データセットの利点が明らかになりました。
品質よりもデータの多様性を優先することの重要性を調べるために、5 つのドメインのテキストで構成されるドイツのデータセットと、高品質のデータを含むことを目的とした別のデータセットを紹介します。
両方のデータセットで 1 億 2,200 万から 7 億 5,000 万のパラメーターにわたる一連のモデルをトレーニングすることで、複数の下流タスクで包括的なベンチマークを実行します。
私たちの調査結果は、クロスドメイン データセットでトレーニングされたモデルが高品質のデータのみでトレーニングされたモデルよりも優れたパフォーマンスを示し、以前の最先端のモデルと比較して最大 $4.45\%$ の改善につながることを示しています。
モデルは https://huggingface.co/ikim-uk-essen で入手できます。
要約(オリジナル)
Traditionally, large language models have been either trained on general web crawls or domain-specific data. However, recent successes of generative large language models, have shed light on the benefits of cross-domain datasets. To examine the significance of prioritizing data diversity over quality, we present a German dataset comprising texts from five domains, along with another dataset aimed at containing high-quality data. Through training a series of models ranging between 122M and 750M parameters on both datasets, we conduct a comprehensive benchmark on multiple downstream tasks. Our findings demonstrate that the models trained on the cross-domain dataset outperform those trained on quality data alone, leading to improvements up to $4.45\%$ over the previous state-of-the-art. The models are available at https://huggingface.co/ikim-uk-essen
arxiv情報
著者 | Amin Dada,Aokun Chen,Cheng Peng,Kaleb E Smith,Ahmad Idrissi-Yaghir,Constantin Marc Seibold,Jianning Li,Lars Heiliger,Xi Yang,Christoph M. Friedrich,Daniel Truhn,Jan Egger,Jiang Bian,Jens Kleesiek,Yonghui Wu |
発行日 | 2023-10-13 14:24:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google