Analyzing And Editing Inner Mechanisms Of Backdoored Language Models

要約

解釈可能性の研究における最近の進歩により、Transformer 言語モデルがより透明になりました。
この進歩は、おもちゃや自然に発生するモデルの内部の仕組みをよりよく理解することにつながりました.
ただし、これらのモデルがセンチメントの変化を内部でどのように処理するかについては、まだ十分に解明されていません。
この作業では、PCP アブレーションと呼ばれる新しい解釈ツールを導入します。このツールでは、モジュールを活性化の主成分に基づいて低ランクの行列に置き換え、モデル パラメーターとその動作を本質的なものに減らします。
バックドア付きのおもちゃ、バックドア付きの大型モデル、および自然発生モデルの MLP およびアテンション レイヤーでの PCP アブレーションを示します。
私たちは、MLP がバックドア メカニズムにとって最も重要であると判断し、この知識を使用して、バックドア メカニズムを除去、挿入、および変更し、PCP アブレーションを介して設計された代替品を使用します。

要約(オリジナル)

Recent advancements in interpretability research made transformer language models more transparent. This progress led to a better understanding of their inner workings for toy and naturally occurring models. However, how these models internally process sentiment changes has yet to be sufficiently answered. In this work, we introduce a new interpretability tool called PCP ablation, where we replace modules with low-rank matrices based on the principal components of their activations, reducing model parameters and their behavior to essentials. We demonstrate PCP ablations on MLP and attention layers in backdoored toy, backdoored large, and naturally occurring models. We determine MLPs as most important for the backdoor mechanism and use this knowledge to remove, insert, and modify backdoor mechanisms with engineered replacements via PCP ablation.

arxiv情報

著者 Max Lamparth,Anka Reuel
発行日 2023-02-24 05:26:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク