How Do Large Language Models Acquire Factual Knowledge During Pretraining?

要約

大規模言語モデル (LLM) が実質的な事実知識を保存できるという最近の観察にもかかわらず、LLM が事前トレーニングを通じて事実知識をどのように獲得するかについてのメカニズムについては限られた理解しかありません。
この研究では、LLM が事前トレーニング中に事実の知識をどのように獲得するかを研究することで、このギャップに対処しています。
この調査結果により、事前トレーニング中の事実知識の獲得のダイナミクスに関するいくつかの重要な洞察が明らかになりました。
まず、直観に反しますが、より多くのデータを事前トレーニングしても、事実の知識を取得して維持するモデルの能力に大きな改善が見られないことがわかります。
次に、トレーニング ステップと事実知識の暗記および一般化の間にはべき乗則の関係があり、重複したトレーニング データでトレーニングされた LLM はより早い忘却を示します。
第三に、より大きなバッチ サイズで LLM をトレーニングすると、忘却に対するモデルの堅牢性が強化されます。
全体として、私たちの観察は、LLM 事前トレーニングにおける事実知識の獲得は、各ステップで事前トレーニング データに提示される事実知識の確率を徐々に高めることによって行われることを示唆しています。
ただし、この増加はその後の忘れによって薄れてしまいます。
この解釈に基づいて、ロングテール知識に対する LLM のパフォーマンスの低下や、トレーニング前コーパスの重複排除の利点など、最近観察された LLM の動作について、もっともらしい説明を提供できることを示します。

要約(オリジナル)

Despite the recent observation that large language models (LLMs) can store substantial factual knowledge, there is a limited understanding of the mechanisms of how they acquire factual knowledge through pretraining. This work addresses this gap by studying how LLMs acquire factual knowledge during pretraining. The findings reveal several important insights into the dynamics of factual knowledge acquisition during pretraining. First, counterintuitively, we observe that pretraining on more data shows no significant improvement in the model’s capability to acquire and maintain factual knowledge. Next, there is a power-law relationship between training steps and forgetting of memorization and generalization of factual knowledge, and LLMs trained with duplicated training data exhibit faster forgetting. Third, training LLMs with larger batch sizes can enhance the models’ robustness to forgetting. Overall, our observations suggest that factual knowledge acquisition in LLM pretraining occurs by progressively increasing the probability of factual knowledge presented in the pretraining data at each step. However, this increase is diluted by subsequent forgetting. Based on this interpretation, we demonstrate that we can provide plausible explanations for recently observed behaviors of LLMs, such as the poor performance of LLMs on long-tail knowledge and the benefits of deduplicating the pretraining corpus.

arxiv情報

著者 Hoyeon Chang,Jinho Park,Seonghyeon Ye,Sohee Yang,Youngkyung Seo,Du-Seong Chang,Minjoon Seo
発行日 2024-06-17 17:54:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク