Can training neural language models on a curriculum with developmentally plausible data improve alignment with human reading behavior?

要約

人間の行動をモデル化するためのニューラル言語モデルの使用は、さまざまな成功を収めてきました。
一部の研究では、これらのモデルからの意外な推定値を使用して、人間の神経反応や行動の幅広い反応を予測できることが判明しましたが、より複雑な構文現象を研究する他の研究では、これらの意外な推定値が不正確な行動予測を生成することが判明しました。
この論文では、BabyLM Challenge など、より発達上もっともらしいデータに基づいてモデルをトレーニングすることによって、経験的な行動とモデルで予測された行動の間の不一致をどの程度最小限に抑えることができるかを調査します。
BabyLM の「strict-small」データセットで教師言語モデルをトレーニングし、これらの教師モデルからの文レベルの意外な推定を使用してカリキュラムを作成しました。
私たちは、カリキュラムによってモデルがトレーニング データから言語知識を獲得しやすくなったという暫定的な証拠を発見しました。モデルの英語の文法知識を評価する BabyLM チャレンジ スイートのタスクのサブセットについて、モデルは最初に BabyLM データ カリキュラムでトレーニングされ、その後、
いくつかのランダムに順序付けされたトレーニング エポックは、ランダムに順序付けされたエポックのみでトレーニングされたモデルよりもわずかに優れたパフォーマンスを示しました。
しかし、この言語知識の獲得の向上は、人間の読書行動とのより良い一致をもたらしませんでした。BabyLM データセットでトレーニングされたモデル (カリキュラムの有無にかかわらず) は、より大規模で精選されていないデータセットでトレーニングされたモデルと同じくらい人間の行動とずれた予測を生成しました。
これは、人間の言語処理を正確に予測できる言語モデルを生成するには、発達上もっともらしいデータセットだけでのトレーニングでは不十分である可能性があることを示唆しています。

要約(オリジナル)

The use of neural language models to model human behavior has met with mixed success. While some work has found that the surprisal estimates from these models can be used to predict a wide range of human neural and behavioral responses, other work studying more complex syntactic phenomena has found that these surprisal estimates generate incorrect behavioral predictions. This paper explores the extent to which the misalignment between empirical and model-predicted behavior can be minimized by training models on more developmentally plausible data, such as in the BabyLM Challenge. We trained teacher language models on the BabyLM ‘strict-small’ dataset and used sentence level surprisal estimates from these teacher models to create a curriculum. We found tentative evidence that our curriculum made it easier for models to acquire linguistic knowledge from the training data: on the subset of tasks in the BabyLM challenge suite evaluating models’ grammatical knowledge of English, models first trained on the BabyLM data curriculum and then on a few randomly ordered training epochs performed slightly better than models trained on randomly ordered epochs alone. This improved linguistic knowledge acquisition did not result in better alignment with human reading behavior, however: models trained on the BabyLM dataset (with or without a curriculum) generated predictions that were as misaligned with human behavior as models trained on larger less curated datasets. This suggests that training on developmentally plausible datasets alone is likely insufficient to generate language models capable of accurately predicting human language processing.

arxiv情報

著者 Aryaman Chobey,Oliver Smith,Anzi Wang,Grusha Prasad
発行日 2023-11-30 18:03:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク