Lessons learned from the evaluation of Spanish Language Models

要約

自然言語処理の分野における言語モデルの影響を考慮して、多数のスペイン語エンコーダー専用マスク言語モデル (別名 BERT) がトレーニングされ、リリースされています。
これらのモデルは、非常に大規模な民間コーパスを使用した大規模プロジェクト内で、または自由に利用可能なデータを活用した小規模な学術的取り組みによって開発されました。
この論文では、スペイン語の言語モデルの包括的な直接比較と次の結果を示します。(i) これまで無視されていた大企業の多言語モデルは単言語モデルよりも優れており、スペイン語の言語モデルの評価環境が大きく変わりました。
(ii) 単一言語モデル全体の結果は決定的なものではなく、より小規模で劣ったモデルのパフォーマンスが競合すると考えられます。
これらの実証結果に基づいて、私たちはその根底にある要因を理解するためにさらなる研究の必要性を主張します。
この意味で、特にスペイン語の急速な進行中の進歩に直面して、大規模な民間企業がリリースした多言語モデルよりも大幅に優れたスペイン語単言語モデルを取得できるようにするには、コーパスのサイズ、品質、事前トレーニング技術の影響をさらに調査する必要があります。
フィールド。
スペイン語の言語技術開発における最近の活動は歓迎されるべきですが、私たちの結果は、言語モデルの構築が未解決でリソースを大量に消費する問題であり、リソース (金銭的および/または計算) と最高の研究専門知識とを結びつける必要があることを示しています。
練習する。

要約(オリジナル)

Given the impact of language models on the field of Natural Language Processing, a number of Spanish encoder-only masked language models (aka BERTs) have been trained and released. These models were developed either within large projects using very large private corpora or by means of smaller scale academic efforts leveraging freely available data. In this paper we present a comprehensive head-to-head comparison of language models for Spanish with the following results: (i) Previously ignored multilingual models from large companies fare better than monolingual models, substantially changing the evaluation landscape of language models in Spanish; (ii) Results across the monolingual models are not conclusive, with supposedly smaller and inferior models performing competitively. Based on these empirical results, we argue for the need of more research to understand the factors underlying them. In this sense, the effect of corpus size, quality and pre-training techniques need to be further investigated to be able to obtain Spanish monolingual models significantly better than the multilingual ones released by large private companies, specially in the face of rapid ongoing progress in the field. The recent activity in the development of language technology for Spanish is to be welcomed, but our results show that building language models remains an open, resource-heavy problem which requires to marry resources (monetary and/or computational) with the best research expertise and practice.

arxiv情報

著者 Rodrigo Agerri,Eneko Agirre
発行日 2023-09-22 07:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク