Continual Memorization of Factoids in Large Language Models

要約

大規模な言語モデルは、事前トレーニングを通じて大量の知識を吸収できますが、事前トレーニングは、ロングテールの事実や特殊な事実を取得するには非効率的です。
したがって、モデルの本来の機能を混乱させる危険性はありますが、世界の変化を反映する専門知識や新しい知識に基づいて微調整することが一般的になっています。
私たちは、継続的な記憶のコンテキストでこの脆弱性を研究します。この場合、モデルは小規模なロングテール ファクトイド (事実の関連付け) セットでトレーニングされ、その後の他のデータセットでのトレーニングの複数の段階の後でもこれらのファクトイドを保持する必要があります。
広範な実験を通じて、LLM は後続の幅広いタスクにわたって忘却に悩まされており、特にファクトイド データセットが後の段階でトレーニングされる場合、単純な再生手法では忘却を完全に防ぐことはできないことがわかりました。
忘れを軽減するには 2 つの方法があると仮定します。1) モデルがファクトイドを学習するときに記憶プロセスを保護する、または 2) 後の段階でのトレーニングからの干渉を減らす。
この洞察に基づいて、効果的な緩和戦略である REMIX (ランダムおよび汎用データ混合) を開発します。
REMIX は、第 1 段階で記憶されたファクトイドと無関係であるにもかかわらず、各段階で事前トレーニング コーパスからサンプリングされた一般的なデータやランダムに生成された単語シーケンスを混合することで忘れを防ぎます。
REMIX は重度の忘却からパフォーマンスを回復することができ、多くの場合、最初の段階からファクトイドにアクセスできるリプレイベースの方法よりも優れたパフォーマンスを発揮します。
次に、REMIX が学習プロセスをどのように変更するかを分析し、忘却防止の成功にはパターンが関連付けられていることがわかりました。モデルはファクトイドを通常よりも早い層に保存し、これらのファクトイドを保存する層のセットを多様化します。
REMIX の有効性は、記憶と忘却の根底にある力学についてのさらなる研究を促し、将来の研究に刺激的な可能性をもたらします。

要約(オリジナル)

Large language models can absorb a massive amount of knowledge through pretraining, but pretraining is inefficient for acquiring long-tailed or specialized facts. Therefore, fine-tuning on specialized or new knowledge that reflects changes in the world has become popular, though it risks disrupting the model’s original capabilities. We study this fragility in the context of continual memorization, where the model is trained on a small set of long-tail factoids (factual associations) and must retain these factoids after multiple stages of subsequent training on other datasets. Through extensive experiments, we show that LLMs suffer from forgetting across a wide range of subsequent tasks, and simple replay techniques do not fully prevent forgetting, especially when the factoid datasets are trained in the later stages. We posit that there are two ways to alleviate forgetting: 1) protect the memorization process as the model learns the factoids, or 2) reduce interference from training in later stages. With this insight, we develop an effective mitigation strategy: REMIX (Random and Generic Data Mixing). REMIX prevents forgetting by mixing generic data sampled from pretraining corpora or even randomly generated word sequences during each stage, despite being unrelated to the memorized factoids in the first stage. REMIX can recover performance from severe forgetting, often outperforming replay-based methods that have access to the factoids from the first stage. We then analyze how REMIX alters the learning process and find that successful forgetting prevention is associated with a pattern: the model stores factoids in earlier layers than usual and diversifies the set of layers that store these factoids. The efficacy of REMIX invites further investigation into the underlying dynamics of memorization and forgetting, opening exciting possibilities for future research.

arxiv情報

著者 Howard Chen,Jiayi Geng,Adithya Bhaskar,Dan Friedman,Danqi Chen
発行日 2024-11-11 17:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク