Language Resources for Dutch Large Language Modelling

要約

大規模な言語モデルの種類は急速に拡大していますが、オランダ語専用に設計されたモデルには依然として顕著なギャップが残っています。
このギャップは、事前トレーニングされたオランダのモデルの点で不足しているだけでなく、データ、ベンチマーク、リーダーボードの点でも不足しています。
この取り組みは、状況を改善するための小さな一歩となります。
まず、Llama 2 13B モデルの 2 つの微調整されたバリアントを紹介します。
まず、オランダ固有の Web クロール データを使用して Llama 2 を微調整し、その後、複数の合成命令およびチャット データセットに基づいてこのモデルをさらに改良しました。
これらのデータセットとモデルの重みが利用可能になります。
さらに、多くの生成タスクにおける (オランダの) モデルのパフォーマンスを追跡するためのリーダーボードを提供しており、独自のモデルを含む多くの最先端のモデルの結果が含まれています。
最後に、オランダ語モデルとそのモデルを中心としたエコシステム全体を推進するために何が必要であると考えられるかについて、重要な結論を示します。

要約(オリジナル)

Despite the rapid expansion of types of large language models, there remains a notable gap in models specifically designed for the Dutch language. This gap is not only a shortage in terms of pretrained Dutch models but also in terms of data, and benchmarks and leaderboards. This work provides a small step to improve the situation. First, we introduce two fine-tuned variants of the Llama 2 13B model. We first fine-tuned Llama 2 using Dutch-specific web-crawled data and subsequently refined this model further on multiple synthetic instruction and chat datasets. These datasets as well as the model weights are made available. In addition, we provide a leaderboard to keep track of the performance of (Dutch) models on a number of generation tasks, and we include results of a number of state-of-the-art models, including our own. Finally we provide a critical conclusion on what we believe is needed to push forward Dutch language models and the whole eco-system around the models.

arxiv情報

著者 Bram Vanroy
発行日 2023-12-20 09:06:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク