On the effect of curriculum learning with developmental data for grammar acquisition

要約

本研究では、文法習得が言語の「単純性」とデータ源のモダリティ(音声かテキストか)によってどの程度左右されるかを探る。BabyBERTaをプローブとして使用し、文法習得は音声データ、特にBabyLMトレーニングコーパスの2つへの接触によって大きく左右されることを発見した:AO-ChildesとOpen Subtitlesである。この発見は、モデルへの入力データの提示方法を様々に検討することによって得られた。まず、様々なシーケンスレベルの複雑さに基づいたカリキュラムの影響を評価する。次に、「ブロック」(行数ではなく、各ソース・コーパスに含まれるトークン数のバランスが取れたテキストのスパンをカバーすること)での学習の影響を調べる。最後に、モデルが異なるコーパスに触れる度合いを変化させたカリキュラムを検討する。すべての場合において、AO-Childes と Open Subtitles に過剰に触れることで、パフォーマンスが著しく向上することがわかった。また、これらのコーパスや、より一般的な音声コーパスへの接触がデザインによって制限されている対照データセットを用いて、これらの結果を検証した。その結果、学習習得を助けるのは、有用性の高いデータが占めるトークンの割合ではなく、そのようなデータに割り当てられたトレーニングステップの割合であることがわかった。この結果は、より発達に適した言語データ(これはより少ない傾向にある)を用いて、一般的なプレトレーニングレジメーションを補強するための今後の研究を促すものである。

要約(オリジナル)

This work explores the degree to which grammar acquisition is driven by language `simplicity’ and the source modality (speech vs. text) of data. Using BabyBERTa as a probe, we find that grammar acquisition is largely driven by exposure to speech data, and in particular through exposure to two of the BabyLM training corpora: AO-Childes and Open Subtitles. We arrive at this finding by examining various ways of presenting input data to our model. First, we assess the impact of various sequence-level complexity based curricula. We then examine the impact of learning over `blocks’ — covering spans of text that are balanced for the number of tokens in each of the source corpora (rather than number of lines). Finally, we explore curricula that vary the degree to which the model is exposed to different corpora. In all cases, we find that over-exposure to AO-Childes and Open Subtitles significantly drives performance. We verify these findings through a comparable control dataset in which exposure to these corpora, and speech more generally, is limited by design. Our findings indicate that it is not the proportion of tokens occupied by high-utility data that aids acquisition, but rather the proportion of training steps assigned to such data. We hope this encourages future research into the use of more developmentally plausible linguistic data (which tends to be more scarce) to augment general purpose pre-training regimes.

arxiv情報

著者 Mattia Opper,J. Morrison,N. Siddharth
発行日 2023-11-03 16:42:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク