Representation Shattering in Transformers: A Synthetic Study with Knowledge Editing

要約

ナレッジ編集 (KE) アルゴリズムは、モデルの内部重みを変更して、不正確、古い、またはその他の望ましくない事実の関連付けに対して対象を絞った更新を実行します。
これらのアプローチの可能性と限界をより明確に定義するために、最近の研究では、KE を適用するとモデルの事実再現精度に悪影響を及ぼし、モデルの一般的な推論能力が低下する可能性があることが示されています。
これらの研究は、ベンチマークでのパフォーマンス評価などを通じて、KE アルゴリズムの潜在的な害について広範な洞察を提供しますが、なぜそのような破壊的な障害が発生するのかについてはほとんど理解されていないと私たちは主張します。
KE メソッドが、対象となる事実を超えて概念の表現を歪め、それによって広範な能力を妨げる可能性はありますか?
もしそうなら、この歪みはどの程度のものですか?
このような疑問に対処するための一歩を踏み出すために、「構造化された」ナレッジ グラフを内部化するためにトランスフォーマーをゼロからトレーニングする新しい合成タスクを定義します。
この構造は、グラフのエンティティ間の関係を強制するため、事実の関連付けを編集すると、グラフ内の他のエンティティに「細やかな影響」が生じます (たとえば、X の親が Y であることを Z に変更すると、X の兄弟の親が誰であるかに影響します)。
編集されたモデルの評価と抽出された表現の分析を通じて、KE がターゲットを超えたエンティティの表現に誤って影響を及ぼし、モデルがエンティティに関する目に見えない知識を推測できるようにする関連構造を歪めることを示します。
我々はこの現象を表現の粉砕と呼び、それがより広範な事実の想起と推論のパフォーマンスの低下をもたらすことを実証します。
より自然な設定での発見を裏付けるために、事前トレーニングされた GPT-2-XL モデルを使用して予備実験を実行し、そこでの表現粉砕効果も再現します。
全体として、私たちの研究は、KE がモデルの機能に悪影響を与える理由を説明する正確なメカニズムの仮説をもたらしました。

要約(オリジナル)

Knowledge Editing (KE) algorithms alter models’ internal weights to perform targeted updates to incorrect, outdated, or otherwise unwanted factual associations. In order to better define the possibilities and limitations of these approaches, recent work has shown that applying KE can adversely affect models’ factual recall accuracy and diminish their general reasoning abilities. While these studies give broad insights into the potential harms of KE algorithms, e.g., via performance evaluations on benchmarks, we argue little is understood as to why such destructive failures occur. Is it possible KE methods distort representations of concepts beyond the targeted fact, hence hampering abilities at broad? If so, what is the extent of this distortion? To take a step towards addressing such questions, we define a novel synthetic task wherein a Transformer is trained from scratch to internalize a “structured” knowledge graph. The structure enforces relationships between entities of the graph, such that editing a factual association has ‘trickling effects’ on other entities in the graph (e.g., altering X’s parent is Y to Z affects who X’s siblings’ parent is). Through evaluations of edited models and analysis of extracted representations, we show that KE inadvertently affects representations of entities beyond the targeted one, distorting relevant structures that allow a model to infer unseen knowledge about an entity. We call this phenomenon representation shattering and demonstrate that it results in degradation of factual recall and reasoning performance more broadly. To corroborate our findings in a more naturalistic setup, we perform preliminary experiments with a pretrained GPT-2-XL model and reproduce the representation shattering effect therein as well. Overall, our work yields a precise mechanistic hypothesis to explain why KE has adverse effects on model capabilities.

arxiv情報

著者 Kento Nishi,Maya Okawa,Rahul Ramesh,Mikail Khona,Ekdeep Singh Lubana,Hidenori Tanaka
発行日 2024-10-22 17:13:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク