Circuit Breaking: Removing Model Behaviors with Targeted Ablation

要約

言語モデルは、トレーニング前の目標ではパフォーマンスを向上させるものの、下流のタスクではパフォーマンスを損なう動作を示すことがよくあります。
我々は、悪い動作の原因となる計算回路を無効にすることを目的として、モデルコンポーネント間の少数の因果経路を除去することにより、望ましくない動作を除去する新しいアプローチを提案します。
モデルの動作が不適切な入力の小さなデータセットが与えられた場合、少数の重要な因果経路を除去する方法を学習します。
GPT-2 有害言語の生成を削減する設定では、11.6,000 個の因果エッジのうちの 12 個だけを除去することで、他の入力のパフォーマンスの低下を最小限に抑えながら有害な言語の生成が軽減されることがわかりました。

要約(オリジナル)

Language models often exhibit behaviors that improve performance on a pre-training objective but harm performance on downstream tasks. We propose a novel approach to removing undesirable behaviors by ablating a small number of causal pathways between model components, with the intention of disabling the computational circuit responsible for the bad behavior. Given a small dataset of inputs where the model behaves poorly, we learn to ablate a small number of important causal pathways. In the setting of reducing GPT-2 toxic language generation, we find ablating just 12 of the 11.6K causal edges mitigates toxic generation with minimal degradation of performance on other inputs.

arxiv情報

著者 Maximilian Li,Xander Davies,Max Nadeau
発行日 2023-09-12 05:51:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク