ToddlerBERTa: Exploiting BabyBERTa for Grammar Learning and Language Understanding

要約

BabyBERTa に似た言語モデルである ToddlerBERTa を紹介し、さまざまなハイパーパラメーターを備えた 5 つの異なるモデルを通じてその機能を探索します。
BLiMP、SuperGLUE、MSGS、および BabyLM チャレンジの Supplement ベンチマークで評価したところ、小規模なモデルは特定のタスクで優れている一方、より大きなモデルは大量のデータで優れたパフォーマンスを発揮することがわかりました。
小規模なデータセットでトレーニングしたにもかかわらず、ToddlerBERTa は、最先端の RoBERTa ベースに匹敵する賞賛に値するパフォーマンスを示しています。
このモデルは、単一文の事前トレーニングでも確実な言語理解を示し、より広範なコンテキスト情報を活用するベースラインと競合します。
私たちの研究は、ハイパーパラメーターの選択とデータの利用に関する洞察を提供し、言語モデルの進歩に貢献します。

要約(オリジナル)

We present ToddlerBERTa, a BabyBERTa-like language model, exploring its capabilities through five different models with varied hyperparameters. Evaluating on BLiMP, SuperGLUE, MSGS, and a Supplement benchmark from the BabyLM challenge, we find that smaller models can excel in specific tasks, while larger models perform well with substantial data. Despite training on a smaller dataset, ToddlerBERTa demonstrates commendable performance, rivalling the state-of-the-art RoBERTa-base. The model showcases robust language understanding, even with single-sentence pretraining, and competes with baselines that leverage broader contextual information. Our work provides insights into hyperparameter choices, and data utilization, contributing to the advancement of language models.

arxiv情報

著者 Omer Veysel Cagatan
発行日 2023-11-08 12:31:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク