Sequence-to-Sequence Spanish Pre-trained Language Models

要約

近年、事前トレーニング済み言語モデルの大幅な進歩により、特にエンコーダーのみおよびデコーダーのみのアーキテクチャに焦点を当てた、多数の非英語バージョンの開発への道が開かれました。
BERT、RoBERTa、GPT を含むスペイン語モデルは自然言語の理解と生成において優れた性能を示していますが、入出力ペアを含むシーケンス間のタスク用に設計されたエンコーダー デコーダー モデルは依然として不足しています。
この論文は、スペイン語コーパスのみで事前トレーニングされた有名なエンコーダ/デコーダ アーキテクチャの実装と評価を紹介することにより、新境地を開拓します。
具体的には、スペイン語版の BART、T5、BERT2BERT スタイルのモデルを提示し、要約、言い換え、生成的質問応答など、さまざまなシーケンス間のタスクにわたる包括的な評価を行います。
私たちの調査結果は、すべてのモデルの競争力のあるパフォーマンスを強調しており、BART と T5 が評価されたすべてのタスクでトップのパフォーマンスを示しています。
追加の貢献として、私たちはすべてのモデルを研究コミュニティに公開し、スペイン語処理における将来の探索と開発を促進しました。

要約(オリジナル)

In recent years, substantial advancements in pre-trained language models have paved the way for the development of numerous non-English language versions, with a particular focus on encoder-only and decoder-only architectures. While Spanish language models encompassing BERT, RoBERTa, and GPT have exhibited prowess in natural language understanding and generation, there remains a scarcity of encoder-decoder models designed for sequence-to-sequence tasks involving input-output pairs. This paper breaks new ground by introducing the implementation and evaluation of renowned encoder-decoder architectures, exclusively pre-trained on Spanish corpora. Specifically, we present Spanish versions of BART, T5, and BERT2BERT-style models and subject them to a comprehensive assessment across a diverse range of sequence-to-sequence tasks, spanning summarization, rephrasing, and generative question answering. Our findings underscore the competitive performance of all models, with BART and T5 emerging as top performers across all evaluated tasks. As an additional contribution, we have made all models publicly available to the research community, fostering future exploration and development in Spanish language processing.

arxiv情報

著者 Vladimir Araujo,Maria Mihaela Trusca,Rodrigo Tufiño,Marie-Francine Moens
発行日 2023-09-20 12:35:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク