要約
大規模言語モデル (LLM) は、絶えず変化する世界の事実に遅れないようにするために継続的な知識の更新を必要とし、生涯にわたるモデル編集タスクの策定を促します。
近年、単一編集やバッチ編集のためのさまざまな技術が開発されていますが、これらの方法は、一生にわたる編集に直面した場合、適用できないか、最適に機能しません。
このペーパーでは、生涯にわたるモデル編集のための高度な Mixture of Experts (MoE) アダプターである LEMoE を紹介します。
まず、致命的な忘れ、一貫性のないルーティング、順序の敏感さなど、生涯にわたる編集における従来の MoE アダプターの有効性に影響を与える要因を分析します。
これらの洞察に基づいて、トレーニングと推論段階の間のルーティングの一貫性を強化する新しい KV アンカー ルーティングと、簡潔かつ効果的なクラスタリング ベースの編集順序計画を組み込んだ、生涯にわたる編集を実現するためのカスタマイズされたモジュール挿入方法を提案します。
実験結果は、バッチ編集タスクで優れたパフォーマンスを維持しながら、以前のモデル編集技術を上回る、生涯編集における私たちの方法の有効性を示しています。
私たちのコードが利用可能になります。
要約(オリジナル)
Large language models (LLMs) require continual knowledge updates to stay abreast of the ever-changing world facts, prompting the formulation of lifelong model editing task. While recent years have witnessed the development of various techniques for single and batch editing, these methods either fail to apply or perform sub-optimally when faced with lifelong editing. In this paper, we introduce LEMoE, an advanced Mixture of Experts (MoE) adaptor for lifelong model editing. We first analyze the factors influencing the effectiveness of conventional MoE adaptor in lifelong editing, including catastrophic forgetting, inconsistent routing and order sensitivity. Based on these insights, we propose a tailored module insertion method to achieve lifelong editing, incorporating a novel KV anchor routing to enhance routing consistency between training and inference stage, along with a concise yet effective clustering-based editing order planning. Experimental results demonstrate the effectiveness of our method in lifelong editing, surpassing previous model editing techniques while maintaining outstanding performance in batch editing task. Our code will be available.
arxiv情報
著者 | Renzhi Wang,Piji Li |
発行日 | 2024-06-28 16:17:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google