要約
近年、自然言語処理は大幅に進歩しました。
ただし、言語モデリングに対する現在の深層学習アプローチには、データと計算の点で大量のリソースが必要です。
このデータを大量に必要とするパラダイムの副作用の 1 つは、現在の言語間の分裂であり、ほとんどの開発が行われリソースが利用可能な高リソースとみなされている言語と、同じレベルに到達するのに苦労している低リソース言語とに分かれています。
パフォーマンスと自主性。
この研究は、ポルトガル語でのニューラル テキスト生成の将来の開発を刺激するための新しいリソース セットを導入することを目的としています。
この研究では、2,000 億トークンに相当する重複排除されたポルトガル語テキスト コーパスを連結した GigaVerbo の開発について文書化します。
このコーパスを介して、Tucano という名前の一連のデコーダ変換器をトレーニングしました。
当社のモデルは、いくつかのポルトガル語ベンチマークにおいて、同様のサイズの他のポルトガル語および多言語モデルと同等以上のパフォーマンスを発揮します。
また、私たちのモデルの評価では、ポルトガルの NLP コミュニティで使用されている現在利用可能な多くのベンチマークでのモデルのパフォーマンスが、トレーニング中のトークン取り込みのスケーリングとほとんど相関していないことも明らかになり、ポルトガル語生成言語の評価に関してそのような評価の限界が浮き彫りになっています。
言語モデル。
私たちの研究から派生したものはすべて GitHub と Hugging Face で公開されています。
https://nkluge-correa.github.io/Tucano/ を参照してください。
要約(オリジナル)
Significant advances have been made in natural language processing in recent years. However, our current deep learning approach to language modeling requires substantial resources in terms of data and computation. One of the side effects of this data-hungry paradigm is the current schism between languages, separating those considered high-resource, where most of the development happens and resources are available, and the low-resource ones, which struggle to attain the same level of performance and autonomy. This study aims to introduce a new set of resources to stimulate the future development of neural text generation in Portuguese. In this work, we document the development of GigaVerbo, a concatenation of deduplicated Portuguese text corpora amounting to 200 billion tokens. Via this corpus, we trained a series of decoder-transformers named Tucano. Our models perform equal or superior to other Portuguese and multilingual language models of similar size in several Portuguese benchmarks. The evaluation of our models also reveals that model performance on many currently available benchmarks used by the Portuguese NLP community has little to no correlation with the scaling of token ingestion during training, highlighting the limitations of such evaluations when it comes to the assessment of Portuguese generative language models. All derivatives of our study are openly released on GitHub and Hugging Face. See https://nkluge-correa.github.io/Tucano/
arxiv情報
著者 | Nicholas Kluge Corrêa,Aniket Sen,Sophia Falk,Shiza Fatimah |
発行日 | 2024-11-12 15:06:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google