Too Much Information: Keeping Training Simple for BabyLMs

要約

本稿では、BabyLMチャレンジにおけるフローニンゲン大学の取り組みについて詳述する。我々は、赤ちゃんのように、言語モデルはまず単純な概念から導入し、その知識を基に、より複雑な概念を理解するべきだという考えに従っている。この単純→複雑という戦略を、コンテクストの大きさ、語彙、データの全体的な言語的複雑さという様々なレンズを通して検証する。その結果、言語モデルの学習に真に有益なのはコンテキストのサイズだけであることがわかった。しかし、この単純なコンテキストサイズの変更により、(Super)GLUEタスクで平均2ポイント、MSGSタスクで平均1ポイント、BLiMPタスクで平均12%の改善が得られる。我々のコンテキスト限定モデルは、10$倍のデータ量で学習したベースラインを上回る。

要約(オリジナル)

This paper details the work of the University of Groningen for the BabyLM Challenge. We follow the idea that, like babies, language models should be introduced to simpler concepts first and build off of that knowledge to understand more complex concepts. We examine this strategy of simple-then-complex through a variety of lenses, namely context size, vocabulary, and overall linguistic complexity of the data. We find that only one, context size, is truly beneficial to training a language model. However this simple change to context size gives us improvements of 2 points on average on (Super)GLUE tasks, 1 point on MSGS tasks, and 12\% on average on BLiMP tasks. Our context-limited model outperforms the baseline that was trained on 10$\times$ the amount of data.

arxiv情報

著者 Lukas Edman,Lisa Bylinina
発行日 2023-11-03 14:50:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク