要約
大規模な言語モデルは、トレーニング前に膨大な知識を蓄積しますが、この獲得を管理するダイナミクスは依然としてよく理解されていません。
この作業では、合成事実のリコールタスクに関する言語モデルの学習ダイナミクスを調査し、3つの重要な調査結果を明らかにします。まず、言語モデルは3つのフェーズで学習し、正確な事実知識を獲得する前にパフォーマンスプラトーを示します。
機械的には、このプラトーは、リコールをサポートする注意ベースの回路の形成と一致します。
第二に、不均衡な分布がより短いプラトーにつながるため、トレーニングデータの分布は学習ダイナミクスに大きく影響します。
最後に、幻覚は知識と同時に現れ、微調整を通じて新しい知識をモデルに統合することは挑戦的です。
我々の結果は、知識習得におけるデータ分布の重要性を強調し、ニューラルネットワークトレーニングを加速するための新しいデータスケジューリング戦略を示唆しています。
要約(オリジナル)
Large language models accumulate vast knowledge during pre-training, yet the dynamics governing this acquisition remain poorly understood. This work investigates the learning dynamics of language models on a synthetic factual recall task, uncovering three key findings: First, language models learn in three phases, exhibiting a performance plateau before acquiring precise factual knowledge. Mechanistically, this plateau coincides with the formation of attention-based circuits that support recall. Second, the training data distribution significantly impacts learning dynamics, as imbalanced distributions lead to shorter plateaus. Finally, hallucinations emerge simultaneously with knowledge, and integrating new knowledge into the model through fine-tuning is challenging, as it quickly corrupts its existing parametric memories. Our results emphasize the importance of data distribution in knowledge acquisition and suggest novel data scheduling strategies to accelerate neural network training.
arxiv情報
著者 | Nicolas Zucchet,Jörg Bornschein,Stephanie Chan,Andrew Lampinen,Razvan Pascanu,Soham De |
発行日 | 2025-03-27 16:43:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google