Continual Memorization of Factoids in Language Models

要約

新しい知識が急速に蓄積されるにつれて、前提条件の知識を持つ言語モデル(LMS)はすぐに時代遅れになります。
LMSを更新するための一般的なアプローチは、新しい知識に直接微調整することです。
しかし、最近の研究では、暗記のための微調整は知識を保存するのに効果がないか、幻覚を悪化させる可能性があることが示されています。
この作業では、継続的な暗記と呼ばれる設定を紹介します。モデルは、後続のデータセットでの複数の微調整の微調整を通じて、ファクトイドのセットを記憶し、保持する必要があります。
私たちは、広範な実験を通じて忘却パターンを特徴づけ、特に第2段階でファクトイドを記憶する必要がある場合、LMSが忘却に広く苦しんでいることを示しました。
トレーニングのダイナミクスを変更することにより、忘却を軽減できると仮定します。(1)ファクトイドを学習する際の記憶プロセスを保護するか、(2)その後のトレーニング段階からの干渉を減らす。
興味深いことに、さまざまなトレーニング段階でcorporaを前からサンプリングしたランダムに生成されたワードシーケンスまたは一般的なデータをミキシングすると、リミックスの忘却が効果的に緩和されることがわかります:ランダムデータミキシングと一般的なデータの混合)。
Remixは、重度の忘却、パフォーマンスのあるリプレイ方法、その他の継続的な学習ベースラインからパフォーマンスを回復できます。
リミックスが学習プロセスにどのように影響するかを分析し、堅牢な暗記が明確なパターンに従うことを発見します。モデルは通常よりも初期のレイヤーにファクトイドを格納し、それらを保持するレイヤーを多様化し、学習したファクトイドを思い出し、操作します。

要約(オリジナル)

As new knowledge rapidly accumulates, language models (LMs) with pretrained knowledge quickly become obsolete. A common approach to updating LMs is fine-tuning them directly on new knowledge. However, recent studies have shown that fine-tuning for memorization may be ineffective in storing knowledge or may exacerbate hallucinations. In this work, we introduce a setting we call continual memorization, where a model must memorize and retain a set of factoids through multiple stages of fine-tuning on subsequent datasets. We characterized the forgetting patterns through extensive experiments and show that LMs widely suffer from forgetting, especially when needing to memorize factoids in the second stage. We posit that forgetting can be alleviated by modifying training dynamics: (1) protecting the memorization process when learning factoids or (2) reducing interference from subsequent training stages. Intriguingly, we find that mixing randomly generated word sequences or generic data sampled from pretraining corpora at different training stages effectively mitigates forgetting REMIX: Random and Generic Data Mixing). REMIX can recover performance from severe forgetting, outperforming replay methods and other continual learning baselines. We analyze how REMIX influences the learning process and find that robust memorization follows a distinct pattern: the model stores factoids in earlier layers than usual and diversifies the layers that retain them, which results in easier recall and manipulate of the learned factoids.

arxiv情報

著者 Howard Chen,Jiayi Geng,Adithya Bhaskar,Dan Friedman,Danqi Chen
発行日 2025-02-27 15:08:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク