要約
言語モデルは事前トレーニング中に予測を行う方法をどのように学習するのでしょうか?
この質問を研究するために、コンテキスト内の 100 万個のトークンについて、5 回の自己回帰英語モデルの事前トレーニング実行から学習曲線を抽出しました。
言語モデルは、より長くより一貫したテキストを生成することを学習する前に、短い反復フレーズを生成することが観察されます。
コンテキスト内の個々のトークンの学習曲線の最終的な驚き、実行内変動、取得年齢、忘れやすさ、および実行間変動を定量化します。
より頻繁なトークンは、到達する最終的な驚きが低くなり、事前トレーニング実行内および事前トレーニング実行間での変動が少なく、早期に学習され、事前トレーニング中に「忘れられる」可能性が低くなります。
N グラムの確率が高くなると、これらの効果がさらに強調されます。
ターゲット トークンとは無関係に、より短く、より頻繁なコンテキストは、わずかに安定して迅速に取得される予測と相関します。
品詞の影響も小さいですが、名詞は動詞、副詞、形容詞よりも遅く取得され、安定性が低い傾向があります。
私たちの研究は、言語モデルの事前トレーニングのダイナミクスのより良い理解に貢献し、実際に安定した言語モデルを展開するための情報を提供します。
要約(オリジナル)
How do language models learn to make predictions during pre-training? To study this question, we extract learning curves from five autoregressive English language model pre-training runs, for 1M tokens in context. We observe that the language models generate short repetitive phrases before learning to generate longer and more coherent text. We quantify the final surprisal, within-run variability, age of acquisition, forgettability, and cross-run variability of learning curves for individual tokens in context. More frequent tokens reach lower final surprisals, exhibit less variability within and across pre-training runs, are learned earlier, and are less likely to be ‘forgotten’ during pre-training. Higher n-gram probabilities further accentuate these effects. Independent of the target token, shorter and more frequent contexts correlate with marginally more stable and quickly acquired predictions. Effects of part-of-speech are also small, although nouns tend to be acquired later and less stably than verbs, adverbs, and adjectives. Our work contributes to a better understanding of language model pre-training dynamics and informs the deployment of stable language models in practice.
arxiv情報
著者 | Tyler A. Chang,Zhuowen Tu,Benjamin K. Bergen |
発行日 | 2023-08-29 16:24:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google