Representation Surgery: Theory and Practice of Affine Steering

要約

言語モデルは、有害なテキストや性別に偏ったテキストを生成するなど、望ましくない動作を示すことがよくあります。
ニューラル言語モデルの場合、望ましくない動作のエンコードがモデルの表現に存在することがよくあります。
したがって、モデルが望ましくない動作を示さないようにする自然な (そして一般的な) アプローチの 1 つは、望ましくないテキストが生成される可能性を減らす方法でモデルの表現を操作することです。
この論文では、ステアリング関数の形式的および経験的特性、つまり、神経言語モデルの動作を変更する神経言語モデルの表現の変換を調査します。
まず、異なる制約の下で、最小二乗の意味で 2 つの最適なアフィン ステアリング関数を導出します。
私たちの理論は既存のアプローチの正当性を示し、新しく改良されたステアリング アプローチを提供します。
第 2 に、バイアスを軽減し、有毒物質の生成を削減する方法の経験的な有効性を実証する一連の実験を提供します。

要約(オリジナル)

Language models often exhibit undesirable behavior, e.g., generating toxic or gender-biased text. In the case of neural language models, an encoding of the undesirable behavior is often present in the model’s representations. Thus, one natural (and common) approach to prevent the model from exhibiting undesirable behavior is to steer the model’s representations in a manner that reduces the probability of it generating undesirable text. This paper investigates the formal and empirical properties of steering functions, i.e., transformation of the neural language model’s representations that alter its behavior. First, we derive two optimal, in the least-squares sense, affine steering functions under different constraints. Our theory provides justification for existing approaches and offers a novel, improved steering approach. Second, we offer a series of experiments that demonstrate the empirical effectiveness of the methods in mitigating bias and reducing toxic generation.

arxiv情報

著者 Shashwat Singh,Shauli Ravfogel,Jonathan Herzig,Roee Aharoni,Ryan Cotterell,Ponnurangam Kumaraguru
発行日 2024-06-25 13:00:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク