要約
この調査では、ローカライズされた更新が大規模な言語モデル(LLMS)に、特に知識編集のコンテキストでの影響を調査します。これは、より広範なモデル機能を変更することなく特定の事実を組み込むまたは変更することを目的としたタスクです。
まず、継続的なトレーニング、完全な微調整、ロラベースの微調整などのさまざまなトレーニング後の介入にわたって、更新されたマトリックスのフロベニウス規範が常に増加することを示します。
この標準の増加は、モデルでマトリックスのサブセットのみが更新されるローカライズされた知識編集に特に有害です。
微調整、ハイパーネットワークベースのアプローチ、位置と編集の方法など、さまざまな編集技術にわたって一貫した現象を明らかにします。
このような成長は、特に分離されたマトリックスが更新され、モデルの残りの部分が静的なままである場合、モデルのバランスを破壊し、潜在的な不安定性と下流のパフォーマンスの低下につながります。
中間活性化ベクトルをより深く調査すると、内部活性化の標準が減少し、これらの活性化が占める部分空間のシフトが伴うことがわかります。
私たちの論文では、継続的かつローカライズされた順次知識の編集と、モデルの安定性と有用性を維持するためのその意味で、技術的な課題を強調しています。
要約(オリジナル)
This study investigates the impact of localized updates to large language models (LLMs), specifically in the context of knowledge editing – a task aimed at incorporating or modifying specific facts without altering broader model capabilities. We first show that across different post-training interventions like continuous pre-training, full fine-tuning and LORA-based fine-tuning, the Frobenius norm of the updated matrices always increases. This increasing norm is especially detrimental for localized knowledge editing, where only a subset of matrices are updated in a model . We reveal a consistent phenomenon across various editing techniques, including fine-tuning, hypernetwork-based approaches, and locate-and-edit methods: the norm of the updated matrix invariably increases with successive updates. Such growth disrupts model balance, particularly when isolated matrices are updated while the rest of the model remains static, leading to potential instability and degradation of downstream performance. Upon deeper investigations of the intermediate activation vectors, we find that the norm of internal activations decreases and is accompanied by shifts in the subspaces occupied by these activations, which shows that these activation vectors now occupy completely different regions in the representation space compared to the unedited model. With our paper, we highlight the technical challenges with continuous and localized sequential knowledge editing and their implications for maintaining model stability and utility.
arxiv情報
著者 | Akshat Gupta,Christine Fang,Atahan Ozdemir,Maochuan Lu,Ahmed Alaa,Thomas Hartvigsen,Gopala Anumanchipalli |
発行日 | 2025-02-26 18:58:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google