要約
大規模な言語モデルは、幅広いタスクで優れたパフォーマンスを実証していますが、トレーニングデータから学んだ知識が誤っているため、まだ望ましくないエラーを示しています。
これを回避するために、知識編集方法が現れて、非常に少ない割合のパラメーターを効率的に変更することにより、特定のモデルの知識を正確に編集しました。
%ただし、これらの方法は特異性障害の問題につながる可能性があります。編集された知識に関連するコンテンツがコンテキストで発生する場合、他の既存の知識を誤って破損する可能性があります。
ただし、これらの方法は、既存の知識と能力が編集のためにひどく劣化している特異性障害の問題につながる可能性があります。
私たちの予備は、特異性の障害が主に編集された知識に関連するエンティティに過度の注意スコアを割り当てるモデルの注意ヘッドに起因することを示しています。
このような注意ドリフトの問題を軽減するために、シンプルで効果的な方法選択的注意ドリフト制限を導入します}(SADR)。これは、知識編集プロセス中に追加の正則化項を導入して、注意量の変化の変化を制限し、編集されたものに過度に焦点を合わせることを妨げます
実在物。
頻繁に使用される5つの強力なLLMでの実験は、SADRが主要な知識編集タスクの特異性障害を大幅に軽減できる方法の有効性を示しています。
要約(オリジナル)
Large Language Models have demonstrated superior performance across a wide range of tasks, but they still exhibit undesirable errors due to incorrect knowledge learned from the training data. To avoid this, knowledge editing methods emerged to precisely edit the specific model knowledge via efficiently modifying a very small percentage of parameters. % However, those methods can lead to the problem of Specificity Failure: when the content related to the edited knowledge occurs in the context, it can inadvertently corrupt other pre-existing knowledge. However, those methods can lead to the problem of Specificity Failure, where the existing knowledge and capabilities are severely degraded due to editing. Our preliminary indicates that Specificity Failure primarily stems from the model’s attention heads assigning excessive attention scores to entities related to the edited knowledge, thereby unduly focusing on specific snippets within the context, which we denote as the Attention Drift phenomenon. To mitigate such Attention Drift issue, we introduce a simple yet effective method Selective Attention Drift Restriction}(SADR), which introduces an additional regularization term during the knowledge editing process to restrict changes in the attention weight distribution, thereby preventing undue focus on the edited entity. Experiments on five frequently used strong LLMs demonstrate the effectiveness of our method, where SADR can significantly mitigate Specificity Failure in the predominant knowledge editing tasks.
arxiv情報
著者 | Pinzheng Wang,Zecheng Tang,Keyan Zhou,Juntao Li,Qiaoming Zhu,Min Zhang |
発行日 | 2025-02-20 18:51:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google