Latxa: An Open Language Model and Evaluation Suite for Basque

要約

70 億から 700 億のパラメータにわたるバスク語の大規模言語モデル ファミリである Latxa を紹介します。
Latxa は Llama 2 に基づいており、430 万のドキュメントと 420 億のトークンで構成される新しいバスク語コーパスで事前トレーニングを続けています。
バスク語に関する高品質のベンチマークの不足に対処するために、さらに 4 つの多肢選択評価データセットを導入します。
EusReading、352 の読解問題で構成されます。
EusTrivia: 5 つの知識領域からの 1,715 のトリビア質問で構成されます。
EusExams は、公開試験からの 16,774 問で構成されています。
私たちの広範な評価では、Latxa は比較した以前のすべてのオープン モデルを大幅に上回りました。
さらに、読解力や知識集約型タスクでは遅れをとっているにもかかわらず、言語熟練度や理解力では GPT-4 Turbo と競合します。
Latxa ファミリーのモデルと、新しい事前トレーニング コーパスおよび評価データセットは両方とも、https://github.com/hitz-zentroa/latxa でオープン ライセンスの下で公開されています。
私たちのスイートを使用すると、低リソース言語用の LLM を構築する方法に関する再現可能な研究が可能になります。

要約(オリジナル)

We introduce Latxa, a family of large language models for Basque ranging from 7 to 70 billion parameters. Latxa is based on Llama 2, which we continue pretraining on a new Basque corpus comprising 4.3M documents and 4.2B tokens. Addressing the scarcity of high-quality benchmarks for Basque, we further introduce 4 multiple choice evaluation datasets: EusProficiency, comprising 5,169 questions from official language proficiency exams; EusReading, comprising 352 reading comprehension questions; EusTrivia, comprising 1,715 trivia questions from 5 knowledge areas; and EusExams, comprising 16,774 questions from public examinations. In our extensive evaluation, Latxa outperforms all previous open models we compare to by a large margin. In addition, it is competitive with GPT-4 Turbo in language proficiency and understanding, despite lagging behind in reading comprehension and knowledge-intensive tasks. Both the Latxa family of models, as well as our new pretraining corpora and evaluation datasets, are publicly available under open licenses at https://github.com/hitz-zentroa/latxa. Our suite enables reproducible research on methods to build LLMs for low-resource languages.

arxiv情報

著者 Julen Etxaniz,Oscar Sainz,Naiara Perez,Itziar Aldabe,German Rigau,Eneko Agirre,Aitor Ormazabal,Mikel Artetxe,Aitor Soroa
発行日 2024-03-29 16:16:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク