Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs

要約

欧州連合の 24 の公用語すべてをサポートすることで、ヨーロッパの言語の多様性を受け入れるように設計された 2 つの多言語 LLM を紹介します。
約 60% の英語以外のデータで構成されるデータセットでトレーニングされ、カスタムの多言語トークナイザーを利用した当社のモデルは、主に英語またはいくつかの高リソース言語に焦点を当てた既存の LLM の制限に対処します。
モデルの開発原則、つまりデータ構成、トークナイザーの最適化、トレーニング方法について詳しく説明します。
これらのモデルは、ARC、HellaSwag、MMLU、TruthfulQA の欧州バージョンでのパフォーマンスから明らかなように、多言語ベンチマーク全体で競争力のあるパフォーマンスを示しています。

要約(オリジナル)

We present two multilingual LLMs designed to embrace Europe’s linguistic diversity by supporting all 24 official languages of the European Union. Trained on a dataset comprising around 60% non-English data and utilizing a custom multilingual tokenizer, our models address the limitations of existing LLMs that predominantly focus on English or a few high-resource languages. We detail the models’ development principles, i.e., data composition, tokenizer optimization, and training methodologies. The models demonstrate competitive performance across multilingual benchmarks, as evidenced by their performance on European versions of ARC, HellaSwag, MMLU, and TruthfulQA.

arxiv情報

著者 Mehdi Ali,Michael Fromm,Klaudia Thellmann,Jan Ebert,Alexander Arno Weber,Richard Rutmann,Charvi Jain,Max Lübbering,Daniel Steinigen,Johannes Leveling,Katrin Klug,Jasper Schulze Buschhoff,Lena Jurkschat,Hammam Abdelwahab,Benny Jörg Stein,Karl-Heinz Sylla,Pavel Denisov,Nicolo’ Brandizzi,Qasid Saleem,Anirban Bhowmick,Lennard Helmer,Chelsea John,Pedro Ortiz Suarez,Malte Ostendorff,Alex Jude,Lalith Manjunath,Samuel Weinbach,Carolin Penke,Oleg Filatov,Shima Asaadi,Fabio Barth,Rafet Sifa,Fabian Küch,Andreas Herten,René Jäkel,Georg Rehm,Stefan Kesselheim,Joachim Köhler,Nicolas Flores-Herr
発行日 2024-10-15 17:09:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク