DUMB: A Benchmark for Smart Evaluation of Dutch Models

要約

オランダのモデル ベンチマークである DUMB を紹介します。
このベンチマークには、低、中、高リソースのタスク向けのさまざまなデータセットが含まれています。
合計 9 つのタスクのセットには、これまでオランダ語では利用できなかった 4 つのタスクが含まれています。
タスク全体の平均スコアに依存する代わりに、言語モデルの DUMB パフォーマンスを、将来、言語モデルの異なるセットを評価する場合でも参照できる強力なベースラインと比較する相対誤差低減 (RER) を提案します。
14 の事前トレーニング済み言語モデル (さまざまなサイズの単言語および多言語) の比較を通じて、ベンチマーク タスクの内部一貫性と、高いパフォーマンスを可能にする可能性のある要因を評価します。
私たちの結果は、現在のオランダ語の単一言語モデルがパフォーマンスを下回っていることを示しており、他のアーキテクチャと事前トレーニング目標を使用して大規模なオランダ語モデルをトレーニングすることを示唆しています。
現時点では、DeBERTaV3 (ラージ)、XLM-R (ラージ)、mDeBERTaV3 (ベース) が最高のパフォーマンスを実現します。
DUMB は、大規模なオランダ語モデルをトレーニングするための最良の戦略を強調することに加えて、オランダ語に関するさらなる研究を促進します。
公開リーダーボードは https://dumbench.nl で利用できます。

要約(オリジナル)

We introduce the Dutch Model Benchmark: DUMB. The benchmark includes a diverse set of datasets for low-, medium- and high-resource tasks. The total set of nine tasks includes four tasks that were previously not available in Dutch. Instead of relying on a mean score across tasks, we propose Relative Error Reduction (RER), which compares the DUMB performance of language models to a strong baseline which can be referred to in the future even when assessing different sets of language models. Through a comparison of 14 pre-trained language models (mono- and multi-lingual, of varying sizes), we assess the internal consistency of the benchmark tasks, as well as the factors that likely enable high performance. Our results indicate that current Dutch monolingual models under-perform and suggest training larger Dutch models with other architectures and pre-training objectives. At present, the highest performance is achieved by DeBERTaV3 (large), XLM-R (large) and mDeBERTaV3 (base). In addition to highlighting best strategies for training larger Dutch models, DUMB will foster further research on Dutch. A public leaderboard is available at https://dumbench.nl.

arxiv情報

著者 Wietse de Vries,Martijn Wieling,Malvina Nissim
発行日 2023-10-13 10:43:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク