要約
言語モデルの分野の研究は急速に進化しており、多くのオープン モデルが公開されています。
公開されている事前トレーニング コーパスは通常、少数の言語のみに焦点を当てており、他の多くの言語は完全に欠落しているか、または極度に過小評価されています。
このレポートでは、CommonCrawl から抽出された 1,500 億トークンのルーマニア語コーパスである FuLG を紹介します。
FuLG をフィルタリングするための方法論を提示し、アブレーション研究を介して既存のルーマニアの体と比較します。
要約(オリジナル)
Research in the field of language models is rapidly evolving, with many open models being released to the public. Openly available pretraining corpora usually focus on only a handful of languages, with many others either missing completely or extremely underrepresented. In this report, we introduce FuLG, a hundred-fifty-billion-token Romanian corpus extracted from CommonCrawl. We present our methodology for filtering FuLG and compare it via ablation studies against existing Romanian corpora.
arxiv情報
| 著者 | Vlad-Andrei Bădoiu,Mihai-Valentin Dumitru,Alexandru M. Gherghescu,Alexandru Agache,Costin Raiciu | 
| 発行日 | 2024-07-18 16:32:48+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
