要約
言語モデルがますます大きくなるにつれて、特に多言語環境では、大規模で高品質のテキスト データセットの必要性がかつてないほど差し迫っています。
BigScience ワークショップは、1 年間の国際的かつ学際的なイニシアチブであり、倫理、危害、およびガバナンスの問題を最前線に置き、価値主導の事業として大規模な言語モデルを研究およびトレーニングすることを目的として結成されました。
このホワイト ペーパーでは、責任あるオープン サイエンス オープン コラボレーション テキスト ソース (ROOTS) コーパスを構築するために BigScience が行ったデータ作成とキュレーションの取り組みについて説明します。ROOTS コーパスは、59 言語にまたがる 1.6 TB のデータセットであり、1,760 億のパラメーターを持つ BigScience Large Open のトレーニングに使用されました。
-science オープンアクセス多言語 (BLOOM) 言語モデル。
さらに、コーパスの大規模な初期サブセットとその分析をリリースし、データと処理ツールの両方を使用して大規模な単一言語および多言語モデリング プロジェクトを強化し、この大規模な多言語コーパスに関する研究を刺激したいと考えています。
要約(オリジナル)
As language models grow ever larger, the need for large-scale high-quality text datasets has never been more pressing, especially in multilingual settings. The BigScience workshop, a 1-year international and multidisciplinary initiative, was formed with the goal of researching and training large language models as a values-driven undertaking, putting issues of ethics, harm, and governance in the foreground. This paper documents the data creation and curation efforts undertaken by BigScience to assemble the Responsible Open-science Open-collaboration Text Sources (ROOTS) corpus, a 1.6TB dataset spanning 59 languages that was used to train the 176-billion-parameter BigScience Large Open-science Open-access Multilingual (BLOOM) language model. We further release a large initial subset of the corpus and analyses thereof, and hope to empower large-scale monolingual and multilingual modeling projects with both the data and the processing tools, as well as stimulate research around this large multilingual corpus.
arxiv情報
著者 | Hugo Laurençon,Lucile Saulnier,Thomas Wang,Christopher Akiki,Albert Villanova del Moral,Teven Le Scao,Leandro Von Werra,Chenghao Mou,Eduardo González Ponferrada,Huu Nguyen,Jörg Frohberg,Mario Šaško,Quentin Lhoest,Angelina McMillan-Major,Gerard Dupont,Stella Biderman,Anna Rogers,Loubna Ben allal,Francesco De Toni,Giada Pistilli,Olivier Nguyen,Somaieh Nikpoor,Maraim Masoud,Pierre Colombo,Javier de la Rosa,Paulo Villegas,Tristan Thrush,Shayne Longpre,Sebastian Nagel,Leon Weber,Manuel Muñoz,Jian Zhu,Daniel Van Strien,Zaid Alyafeai,Khalid Almubarak,Minh Chien Vu,Itziar Gonzalez-Dios,Aitor Soroa,Kyle Lo,Manan Dey,Pedro Ortiz Suarez,Aaron Gokaslan,Shamik Bose,David Adelani,Long Phan,Hieu Tran,Ian Yu,Suhas Pai,Jenny Chim,Violette Lepercq,Suzana Ilic,Margaret Mitchell,Sasha Alexandra Luccioni,Yacine Jernite |
発行日 | 2023-03-07 14:25:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google