要約
ポルトガル語(PT)の神経エンコード、およびデジタル時代に向けたこの言語の技術的準備を進めるため、我々はTransformerベースの基礎モデルを開発し、ポルトガル語(PT-PT)とブラジル語(PT-BR)という2種類の変種についてこの点で新しい状態を確立した。 Albertina PT-*と名付けたこのエンコーダを開発するために、出発点として強力なモデルDeBERTaを使用し、その事前学習をポルトガル語のデータセット、すなわちPT-PTについては我々が集めたデータセットで、PT-BRについてはbrWaCコーパスで実施した。Albertinaと競合モデルの性能は、ポルトガル語に適応した著名な下流言語処理タスクで評価することで評価した。 Albertina PT-PTとPT-BRの両バージョンは、可能な限り寛容なライセンスの下で無償配布され、民生用ハードウェアで実行できるため、ポルトガル語の言語技術における研究と革新の進展に貢献することを目指します。
要約(オリジナル)
To advance the neural encoding of Portuguese (PT), and a fortiori the technological preparation of this language for the digital age, we developed a Transformer-based foundation model that sets a new state of the art in this respect for two of its variants, namely European Portuguese from Portugal (PT-PT) and American Portuguese from Brazil (PT-BR). To develop this encoder, which we named Albertina PT-*, a strong model was used as a starting point, DeBERTa, and its pre-training was done over data sets of Portuguese, namely over a data set we gathered for PT-PT and over the brWaC corpus for PT-BR. The performance of Albertina and competing models was assessed by evaluating them on prominent downstream language processing tasks adapted for Portuguese. Both Albertina PT-PT and PT-BR versions are distributed free of charge and under the most permissive license possible and can be run on consumer-grade hardware, thus seeking to contribute to the advancement of research and innovation in language technology for Portuguese.
arxiv情報
著者 | João Rodrigues,Luís Gomes,João Silva,António Branco,Rodrigo Santos,Henrique Lopes Cardoso,Tomás Osório |
発行日 | 2023-05-11 10:56:20+00:00 |
arxivサイト | arxiv_id(pdf) |