FuLG: 150B Romanian Corpus for Language Model Pretraining

要約

言語モデルの分野の研究は急速に進化しており、多くのオープン モデルが公開されています。
公開されている事前トレーニング コーパスは通常、少数の言語のみに焦点を当てており、他の多くの言語は完全に欠落しているか、または極度に過小評価されています。
このレポートでは、CommonCrawl から抽出された 1,500 億トークンのルーマニア語コーパスである FuLG を紹介します。
FuLG をフィルタリングするための方法論を提示し、アブレーション研究を介して既存のルーマニアの体と比較します。

要約(オリジナル)

Research in the field of language models is rapidly evolving, with many open models being released to the public. Openly available pretraining corpora usually focus on only a handful of languages, with many others either missing completely or extremely underrepresented. In this report, we introduce FuLG, a hundred-fifty-billion-token Romanian corpus extracted from CommonCrawl. We present our methodology for filtering FuLG and compare it via ablation studies against existing Romanian corpora.

arxiv情報

著者 Vlad-Andrei Bădoiu,Mihai-Valentin Dumitru,Alexandru M. Gherghescu,Alexandru Agache,Costin Raiciu
発行日 2024-07-18 16:32:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク