Transformer-Based LM Surprisal Predicts Human Reading Times Best with About Two Billion Training Tokens

要約

タイトル:2つの十億トークンのトレーニングでTransformerベースの言語モデルの説明力が最高になることが人間の読解時間を最もよく予測する

要約:最近の心理言語学的研究には、言語モデルの品質とそのサプライズ推定値が人間の読解時間を予測する能力との関係について矛盾する結論が導かれており、これは研究全体でのトレーニングデータ量とモデル容量の大きな格差によるものであると考えられています。本研究は、トレーニングデータとモデル容量が系統的に異なるTransformerベースの言語モデル変種からのサプライズ推定値を評価し、それらが人間の読解時間を予測する能力にどのような影響を与えるかを検討しています。結果は、現在のモデル容量を持つほとんどの変種からのサプライズ推定値は、約20億個のトレーニングトークンを見た後に最適な適合性を提供し、その後、人間の期待から乖離し始めます。さらに、新しくトレーニングされた小さなモデルの変種は収束点で“転換点”を示し、言語モデルのパープレキシティの低下が人間の読解時間との不適合につながるようになることが明らかになりました。これらの結果は、大量のトレーニングデータが大型のプレトレーニング言語モデルのサプライズの適合性が悪くなる原因であり、Transformerベースの言語モデルが人間らしい期待を捉えるためには一定のモデル容量が必要であることを示唆しています。

– 最近の心理言語学的研究では、言語モデルの品質とそのサプライズ推定値が人間の読解時間を予測する能力との関係について矛盾する結論が導かれている
– この矛盾は、研究全体でのトレーニングデータ量とモデル容量の大きな格差によるものであると考えられている
– 本研究は、Transformerベースの言語モデル変種からのサプライズ推定値を評価し、それらが人間の読解時間を予測する能力にどのような影響を与えるかを検討している
– 結果は、現在のモデル容量を持つほとんどの変種からのサプライズ推定値は、約20億個のトレーニングトークンを見た後に最適な適合性を提供し、その後、人間の期待から乖離し始めます。
– 新しくトレーニングされた小さなモデルの変種は収束点で“転換点”を示し、言語モデルのパープレキシティの低下が人間の読解時間との不適合につながるようになることが明らかになりました。
– これらの結果は、大量のトレーニングデータが大型のプレトレーニング言語モデルのサプライズの適合性が悪くなる原因であり、Transformerベースの言語モデルが人間らしい期待を捉えるためには一定のモデル容量が必要であることを示唆しています。

要約(オリジナル)

Recent psycholinguistic studies have drawn conflicting conclusions about the relationship between the quality of a language model and the ability of its surprisal estimates to predict human reading times, which has been speculated to be due to the large gap in both the amount of training data and model capacity across studies. The current work aims to consolidate these findings by evaluating surprisal estimates from Transformer-based language model variants that vary systematically in the amount of training data and model capacity on their ability to predict human reading times. The results show that surprisal estimates from most variants with contemporary model capacities provide the best fit after seeing about two billion training tokens, after which they begin to diverge from humanlike expectations. Additionally, newly-trained smaller model variants reveal a ‘tipping point’ at convergence, after which the decrease in language model perplexity begins to result in poorer fits to human reading times. These results suggest that the massive amount of training data is mainly responsible for the poorer fit achieved by surprisal from larger pre-trained language models, and that a certain degree of model capacity is necessary for Transformer-based language models to capture humanlike expectations.

arxiv情報

著者 Byung-Doh Oh,William Schuler
発行日 2023-04-22 12:50:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク