要約
事前トレーニングされた言語モデル (LM) は、パラメータ内の知識の暗黙的な表現をエンコードします。
ただし、これらの表現を局所化し、相互のもつれを解くことは未解決の問題のままです。
この研究では、事前トレーニングされた言語モデルにさまざまな知識クリティカルなサブネットワーク、つまり、削除された場合にモデルが記憶した特定の知識を正確に抑制できる特定の疎な計算サブグラフが含まれているかどうかを調査します。
我々は、そのようなサブネットワークを発見するために重みとニューロンの両方に適用できる多目的微分可能なマスキングスキームを提案し、それらを使用して元のモデルの動作への悪影響を最小限に抑えながらモデルから特定の知識を正確に削除できることを示します。
複数の GPT2 バリアントで手法を実証し、リレーショナル知識の特定のコレクションを表現するために重要な高度にまばらなサブネットワーク (98% 以上のまばらさ) を明らかにします。
これらのサブネットワークが削除されると、残りのネットワークは初期の能力のほとんどを維持しますが、抑圧された知識を表現するのに苦労します。
要約(オリジナル)
Pretrained language models (LMs) encode implicit representations of knowledge in their parameters. However, localizing these representations and disentangling them from each other remains an open problem. In this work, we investigate whether pretrained language models contain various knowledge-critical subnetworks: particular sparse computational subgraphs that can, if removed, precisely suppress specific knowledge the model has memorized. We propose a multi-objective differentiable masking scheme that can be applied to both weights and neurons to discover such subnetworks and show that we can use them to precisely remove specific knowledge from models while minimizing adverse effects on the behavior of the original model. We demonstrate our method on multiple GPT2 variants, uncovering highly sparse subnetworks (98%+ sparsity) that are critical for expressing specific collections of relational knowledge. When these subnetworks are removed, the remaining network maintains most of its initial abilities but struggles to represent the suppressed knowledge.
arxiv情報
著者 | Deniz Bayazit,Negar Foroutan,Zeming Chen,Gail Weiss,Antoine Bosselut |
発行日 | 2024-10-15 14:12:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google