Uncovering Model Processing Strategies with Non-Negative Per-Example Fisher Factorization

要約

NPEFF(非陰性の漁師因数分解)を紹介します。これは、モデルが予測を生成するために使用する戦略を明らかにすることを目的とする解釈可能性方法です。
Npeffは、学習したランク1陽性半定義によって表されるコンポーネントのセットを学習する新しい分解アルゴリズムを使用して、例ごとのフィッシャーマトリックスを使用します。
人間の評価と自動分析の組み合わせにより、これらのnpeffコンポーネントは、さまざまな言語モデルとテキスト処理タスクのモデル処理戦略に対応することを実証します。
さらに、モデルの処理における特定のコンポーネントの役割を選択的に破壊するために、Npeffコンポーネントからパラメーター摂動を構築する方法をさらに示します。
広範なアブレーション研究の実施に加えて、NPEFFを使用して学習の担保効果を分析および緩和するためにどのように使用できるかを示す実験を含め、NPEFFを使用して文学内学習を研究します。
さらに、勾配クラスタリングやモデルの活性化上の辞書学習のためにスパース自動エンコーダーを使用するなどのベースラインよりもNpeffの利点を示します。

要約(オリジナル)

We introduce NPEFF (Non-Negative Per-Example Fisher Factorization), an interpretability method that aims to uncover strategies used by a model to generate its predictions. NPEFF decomposes per-example Fisher matrices using a novel decomposition algorithm that learns a set of components represented by learned rank-1 positive semi-definite matrices. Through a combination of human evaluation and automated analysis, we demonstrate that these NPEFF components correspond to model processing strategies for a variety of language models and text processing tasks. We further show how to construct parameter perturbations from NPEFF components to selectively disrupt a given component’s role in the model’s processing. Along with conducting extensive ablation studies, we include experiments to show how NPEFF can be used to analyze and mitigate collateral effects of unlearning and use NPEFF to study in-context learning. Furthermore, we demonstrate the advantages of NPEFF over baselines such as gradient clustering and using sparse autoencoders for dictionary learning over model activations.

arxiv情報

著者 Michael Matena,Colin Raffel
発行日 2025-05-09 15:58:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク