Trained on 100 million words and still in shape: BERT meets British National Corpus

要約

現代の仮面言語モデル (LM) は、これまで以上に大きなコーパスでトレーニングされますが、ここでは、トレーニングを適度なサイズでありながら代表的で、バランスが取れており、公開されている英語のテキスト ソースである英国国立コーパスに縮小した場合の効果を調べます。
この慎重に精選されたコーパスでの事前トレーニングは、元の BERT モデルよりも優れたパフォーマンスを達成できることを示しています。
このタイプのコーパスは、言語モデリングのベンチマークとして大きな可能性を秘めていると私たちは主張します。
この可能性を紹介するために、LM の公平で再現可能でデータ効率の高い比較研究を提示します。この研究では、いくつかのトレーニング目標とモデル アーキテクチャを評価し、以前の経験的結果を体系的な方法で再現します。
LTG-BERTと呼ばれる最適化されたLMアーキテクチャを提案します。

要約(オリジナル)

While modern masked language models (LMs) are trained on ever larger corpora, we here explore the effects of down-scaling training to a modestly-sized but representative, well-balanced, and publicly available English text source — the British National Corpus. We show that pre-training on this carefully curated corpus can reach better performance than the original BERT model. We argue that this type of corpora has great potential as a language modeling benchmark. To showcase this potential, we present fair, reproducible and data-efficient comparative studies of LMs, in which we evaluate several training objectives and model architectures and replicate previous empirical results in a systematic way. We propose an optimized LM architecture called LTG-BERT.

arxiv情報

著者 David Samuel,Andrey Kutuzov,Lilja Øvrelid,Erik Velldal
発行日 2023-03-29 09:00:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク