要約
BabyBERTa に似た言語モデルである ToddlerBERTa を紹介し、さまざまなハイパーパラメーターを備えた 5 つの異なるモデルを通じてその機能を探索します。
BLiMP、SuperGLUE、MSGS、および BabyLM チャレンジの Supplement ベンチマークで評価したところ、小規模なモデルは特定のタスクで優れている一方、より大きなモデルは大量のデータで優れたパフォーマンスを発揮することがわかりました。
小規模なデータセットでトレーニングしたにもかかわらず、ToddlerBERTa は、最先端の RoBERTa ベースに匹敵する賞賛に値するパフォーマンスを示しています。
このモデルは、単一文の事前トレーニングでも確実な言語理解を示し、より広範なコンテキスト情報を活用するベースラインと競合します。
私たちの研究は、ハイパーパラメーターの選択とデータの利用に関する洞察を提供し、言語モデルの進歩に貢献します。
要約(オリジナル)
We present ToddlerBERTa, a BabyBERTa-like language model, exploring its capabilities through five different models with varied hyperparameters. Evaluating on BLiMP, SuperGLUE, MSGS, and a Supplement benchmark from the BabyLM challenge, we find that smaller models can excel in specific tasks, while larger models perform well with substantial data. Despite training on a smaller dataset, ToddlerBERTa demonstrates commendable performance, rivalling the state-of-the-art RoBERTa-base. The model showcases robust language understanding, even with single-sentence pretraining, and competes with baselines that leverage broader contextual information. Our work provides insights into hyperparameter choices, and data utilization, contributing to the advancement of language models.
arxiv情報
著者 | Omer Veysel Cagatan |
発行日 | 2023-11-08 12:31:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google