Memorization-Compression Cycles Improve Generalization

要約

理論的には、一般化はデータスケーリングだけでなく、内部表現を圧縮することによっても改善することを証明します。
この洞察を運用するために、ボトルネック言語モデリング(IBLM)目的を導入します。これは、言語モデリングを制約された最適化問題として再構成します。
経験的には、LLM事前化中の緊急の記憶圧縮サイクルを観察します。これは、表現エントロピーの尺度である交差エントロピーとマトリックスベースのエントロピー(MBE)の間の振動陽性/負の勾配アライメントによって証明されます。
このパターンは、IBLMによって規定されている予測に満ちたトレードオフを密接に反映しており、目覚めの学習と睡眠の統合の間の生物学的交互の代替とも似ています。
この観察に動機付けられて、私たちは、暗記フェーズと圧縮フェーズを適応的に切り替えるトレーニングアルゴリズムであるゲート相遷移(GAPT)を提案します。
FINEWEBデータセットでGPT-2事前化に適用すると、GAPTはMBEを50%削減し、交差点を4.8%改善します。
GAPTは、算術の増殖に関する事前削除タスクでOod generalizatinoを35%改善します。
壊滅的な忘却をシミュレートするように設計された設定では、GAPTは表現を圧縮および分離することにより干渉を減らし、分離の97%の改善を達成します – 睡眠統合の機能的役割と並行します。

要約(オリジナル)

We prove theoretically that generalization improves not only through data scaling but also by compressing internal representations. To operationalize this insight, we introduce the Information Bottleneck Language Modeling (IBLM) objective, which reframes language modeling as a constrained optimization problem: minimizing representation entropy subject to optimal prediction performance. Empirically, we observe an emergent memorization-compression cycle during LLM pretraining, evidenced by oscillation positive/negative gradient alignment between cross-entropy and Matrix-Based Entropy (MBE), a measure of representation entropy. This pattern closely mirrors the predictive-compressive trade-off prescribed by IBLM and also parallels the biological alternation between awake learning and sleep consolidation. Motivated by this observation, we propose Gated Phase Transition (GAPT), a training algorithm that adaptively switches between memorization and compression phases. When applied to GPT-2 pretraining on FineWeb dataset, GAPT reduces MBE by 50% and improves cross-entropy by 4.8%. GAPT improves OOD generalizatino by 35% in a pretraining task on arithmetic multiplication. In a setting designed to simulate catastrophic forgetting, GAPT reduces interference by compressing and separating representations, achieving a 97% improvement in separation – paralleling the functional role of sleep consolidation.

arxiv情報

著者 Fangyuan Yu
発行日 2025-05-13 16:37:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IT, cs.LG, math.IT パーマリンク