An Expanded Massive Multilingual Dataset for High-Performance Language Technologies

要約

最先端の大規模な言語モデルのトレーニングには、膨大な量のクリーンで多様なテキストデータが必要です。
ただし、適切な多言語データセットの構築は依然として課題です。
この作業では、高品質の多言語の単一言語および並列コーパスのコレクションであるHPLT V2を紹介します。
データの単一言語部分には、193の言語をカバーする8Tトークンが含まれていますが、並列データには51の言語をカバーする380mの文のペアが含まれています。
データパイプライン全体を文書化し、コードをリリースして再現します。
データの品質と特性の広範な分析を提供します。
最後に、HPLT V2でトレーニングされた言語モデルと機械翻訳システムのパフォーマンスを評価し、その価値を示します。

要約(オリジナル)

Training state-of-the-art large language models requires vast amounts of clean and diverse textual data. However, building suitable multilingual datasets remains a challenge. In this work, we present HPLT v2, a collection of high-quality multilingual monolingual and parallel corpora. The monolingual portion of the data contains 8T tokens covering 193 languages, while the parallel data contains 380M sentence pairs covering 51 languages. We document the entire data pipeline and release the code to reproduce it. We provide extensive analysis of the quality and characteristics of our data. Finally, we evaluate the performance of language models and machine translation systems trained on HPLT v2, demonstrating its value.

arxiv情報

著者 Laurie Burchell,Ona de Gibert,Nikolay Arefyev,Mikko Aulamo,Marta Bañón,Pinzhen Chen,Mariia Fedorova,Liane Guillou,Barry Haddow,Jan Hajič,Jindřich Helcl,Erik Henriksson,Mateusz Klimaszewski,Ville Komulainen,Andrey Kutuzov,Joona Kytöniemi,Veronika Laippala,Petter Mæhlum,Bhavitvya Malik,Farrokh Mehryary,Vladislav Mikhailov,Nikita Moghe,Amanda Myntti,Dayyán O’Brien,Stephan Oepen,Proyag Pal,Jousia Piha,Sampo Pyysalo,Gema Ramírez-Sánchez,David Samuel,Pavel Stepachev,Jörg Tiedemann,Dušan Variš,Tereza Vojtěchová,Jaume Zaragoza-Bernabeu
発行日 2025-03-14 12:48:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク