Carolina: a General Corpus of Contemporary Brazilian Portuguese with Provenance, Typology and Versioning Information

要約

このホワイト ペーパーでは、カロライナ コーパスの最初の公開バージョンを紹介し、その将来の方向性について説明します。
Carolina は、ブラジル ポルトガル語テキストの大規模なオープン コーパスであり、来歴、類型学、バージョン管理、およびテキストの完全性で強化された Web-as-corpus 手法を使用して構築中です。
このコーパスは、言語学の研究のための信頼できる情報源として、また言語モデルに関するコンピューター サイエンス研究のための重要なリソースとして使用されることを目的としており、リソースの少ない言語のセットからポルトガル語を取り除くことに貢献しています。
ここでは、コーパスの方法論の構築を提示し、他の既存の方法論と比較し、コーパスの現在の状態を示します。カロライナの最初の公開バージョンには、6 億 5,332 万 2,577 ドルのトークンがあり、7 ドルの広範なタイプに分散されています。
各テキストには、TEI アノテーション標準を使用して開発された、ヘッダー内のいくつかの異なるメタデータ カテゴリでアノテーションが付けられます。
また、進行中の派生作品を紹介し、NLP 研究者に独自の作品で貢献してもらいます。

要約(オリジナル)

This paper presents the first publicly available version of the Carolina Corpus and discusses its future directions. Carolina is a large open corpus of Brazilian Portuguese texts under construction using web-as-corpus methodology enhanced with provenance, typology, versioning, and text integrality. The corpus aims at being used both as a reliable source for research in Linguistics and as an important resource for Computer Science research on language models, contributing towards removing Portuguese from the set of low-resource languages. Here we present the construction of the corpus methodology, comparing it with other existing methodologies, as well as the corpus current state: Carolina’s first public version has $653,322,577$ tokens, distributed over $7$ broad types. Each text is annotated with several different metadata categories in its header, which we developed using TEI annotation standards. We also present ongoing derivative works and invite NLP researchers to contribute with their own.

arxiv情報

著者 Maria Clara Ramos Morales Crespo,Maria Lina de Souza Jeannine Rocha,Mariana Lourenço Sturzeneker,Felipe Ribas Serras,Guilherme Lamartine de Mello,Aline Silva Costa,Mayara Feliciano Palma,Renata Morais Mesquita,Raquel de Paula Guets,Mariana Marques da Silva,Marcelo Finger,Maria Clara Paixão de Sousa,Cristiane Namiuti,Vanessa Martins do Monte
発行日 2023-03-28 16:09:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, I.2.7 パーマリンク