In Praise of Stubbornness: An Empirical Case for Cognitive-Dissonance Aware Continual Update of Knowledge in LLMs

要約

体系的な経験的調査を通じて、私たちは大規模な言語モデルの根本的かつ懸念される財産を明らかにします。彼らは知識と矛盾しない事実を安全に学ぶことができますが、矛盾した情報で事実を更新しようとすると、無関係な知識の壊滅的な腐敗が引き起こされます。
矛盾した情報に自然に抵抗する人間とは異なり、これらのモデルは無差別に矛盾を受け入れ、壊滅的な干渉につながり、10-100の矛盾した事実を学習しても、無関係な知識の最大80%を破壊します。
この干渉を選択的可塑性を通じて軽減できるかどうかを理解するために、ターゲットを絞ったネットワーク更新を実験し、以前に使用した(頑固な)とめったに使用されない(プラスチック)ニューロンを区別します。
別の非対称性を発見します。頻繁に使用されるニューロンを節約することで、非矛盾のある更新の既存の知識の保持が大幅に改善されます(標準的な更新で98%対93%)、矛盾する更新はターゲティング戦略に関係なく壊滅的な干渉を引き起こします。
テストされたモデルスケール(GPT-2からGPT-J-6b)全体で持続するこの効果は、ニューラルネットワークが矛盾をどのように処理するかの基本的な制限を示唆しています。
最後に、矛盾した情報を単純なモデル機能を使用して確実に検出(95%以上の精度)が提供し、潜在的な保護メカニズムを提供することを実証します。
これらの発見は、人間のように、破壊的な上書きを許すのではなく、自然に矛盾に抵抗する可能性のある新しいアーキテクチャを動機付けます。

要約(オリジナル)

Through systematic empirical investigation, we uncover a fundamental and concerning property of Large Language Models: while they can safely learn facts that don’t contradict their knowledge, attempting to update facts with contradictory information triggers catastrophic corruption of unrelated knowledge. Unlike humans, who naturally resist contradictory information, these models indiscriminately accept contradictions, leading to devastating interference, destroying up to 80% of unrelated knowledge even when learning as few as 10-100 contradicting facts. To understand whether this interference could be mitigated through selective plasticity, we experiment with targeted network updates, distinguishing between previously used (stubborn) and rarely used (plastic) neurons. We uncover another asymmetry: while sparing frequently-used neurons significantly improves retention of existing knowledge for non-contradictory updates (98% vs 93% with standard updates), contradictory updates trigger catastrophic interference regardless of targeting strategy. This effect which persists across tested model scales (GPT-2 to GPT-J-6B), suggests a fundamental limitation in how neural networks handle contradictions. Finally, we demonstrate that contradictory information can be reliably detected (95%+ accuracy) using simple model features, offering a potential protective mechanism. These findings motivate new architectures that can, like humans, naturally resist contradictions rather than allowing destructive overwrites.

arxiv情報

著者 Simone Clemente,Zied Ben Houidi,Alexis Huet,Dario Rossi,Giulio Franzese,Pietro Michiardi
発行日 2025-06-10 13:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, q-bio.NC パーマリンク