Advancing Neural Encoding of Portuguese with Transformer Albertina PT-*

要約

ポルトガル語 (PT) のニューラル エンコーディングを推進し、デジタル時代に向けたこの言語の技術的準備を強化するために、私たちは 2 つの亜種についてこの点で新しい最先端を確立する Transformer ベースの基礎モデルを開発しました。
つまり、ポルトガル出身のヨーロッパ系ポルトガル人 (PT-PT) とブラジル出身のアメリカ系ポルトガル人 (PT-BR) です。
Albertina PT-* と名付けたこのエンコーダーを開発するために、出発点として強力なモデル DeBERTa が使用され、その事前トレーニングはポルトガル語のデータ セット、つまり PT-PT と PT 用に収集したデータ セットに対して行われました。
-BR、および PT-BR の brWaC コーパス上。
Albertina と競合モデルのパフォーマンスは、ポルトガル語に適応された顕著な下流言語処理タスクで評価することによって評価されました。
Albertina PT-PT と PT-BR の両バージョンは、可能な限り最も寛容なライセンスの下で無料で配布されており、消費者グレードのハードウェアで実行できるため、ポルトガル語の言語技術における研究と革新の進歩に貢献することを目指しています。

要約(オリジナル)

To advance the neural encoding of Portuguese (PT), and a fortiori the technological preparation of this language for the digital age, we developed a Transformer-based foundation model that sets a new state of the art in this respect for two of its variants, namely European Portuguese from Portugal (PT-PT) and American Portuguese from Brazil (PT-BR). To develop this encoder, which we named Albertina PT-*, a strong model was used as a starting point, DeBERTa, and its pre-training was done over data sets of Portuguese, namely over data sets we gathered for PT-PT and PT-BR, and over the brWaC corpus for PT-BR. The performance of Albertina and competing models was assessed by evaluating them on prominent downstream language processing tasks adapted for Portuguese. Both Albertina PT-PT and PT-BR versions are distributed free of charge and under the most permissive license possible and can be run on consumer-grade hardware, thus seeking to contribute to the advancement of research and innovation in language technology for Portuguese.

arxiv情報

著者 João Rodrigues,Luís Gomes,João Silva,António Branco,Rodrigo Santos,Henrique Lopes Cardoso,Tomás Osório
発行日 2023-06-20 15:22:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク