Investigating Neuron Ablation in Attention Heads: The Case for Peak Activation Centering

要約

変圧器ベースのモデルの使用は社会全体で急速に増加しています。
この成長に伴い、それらがどのように機能するか、特に注意メカニズムが概念をどのように表現するかを理解することが重要です。
解釈可能性の方法は数多くありますが、その多くはニューロンの活性化を通じてモデルを観察していますが、その多くは十分に理解されていません。
私たちは、ニューロンの活性化を観察するためのさまざまなレンズについて説明し、ゼロ アブレーション、平均アブレーション、活性化リサンプリング、および「ピーク アブレーション」と呼ぶ新しいアプローチなど、ニューロン アブレーションのさまざまな方法を通じて言語モデルと視覚変換器の有効性を調査します。
実験的な分析を通じて、さまざまなレジームやモデルにおいて、各方法は他の方法と比較してモデルのパフォーマンスの低下を最小限に抑えることができ、通常はリサンプリングが最も重大なパフォーマンスの低下を引き起こすことがわかりました。
コードは https://github.com/nickypro/investigation-ablation で公開しています。

要約(オリジナル)

The use of transformer-based models is growing rapidly throughout society. With this growth, it is important to understand how they work, and in particular, how the attention mechanisms represent concepts. Though there are many interpretability methods, many look at models through their neuronal activations, which are poorly understood. We describe different lenses through which to view neuron activations, and investigate the effectiveness in language models and vision transformers through various methods of neural ablation: zero ablation, mean ablation, activation resampling, and a novel approach we term ‘peak ablation’. Through experimental analysis, we find that in different regimes and models, each method can offer the lowest degradation of model performance compared to other methods, with resampling usually causing the most significant performance deterioration. We make our code available at https://github.com/nickypro/investigating-ablation.

arxiv情報

著者 Nicholas Pochinkov,Ben Pasero,Skylar Shibayama
発行日 2024-08-30 14:32:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T50, cs.AI, cs.CL, cs.CV, cs.LG, I.2.4 パーマリンク