要約
言語モデルは、有害なテキストや性別に偏ったテキストを生成するなど、望ましくない動作を示すことがよくある。ニューラル言語モデルの場合、望ましくない振る舞いの符号化がモデルの表現に存在することが多い。従って、モデルが望ましくない振る舞いをしないようにするための一つの自然な(そして一般的な)アプローチは、望ましくないテキストを生成する確率を下げるような方法でモデルの表現を制御することである。本稿では、ステアリング関数、すなわち神経言語モデルの振る舞いを変化させる表現の変換の形式的・経験的特性を調査する。まず、異なる制約の下で、2つの最適な(最小二乗の意味での)アフィンステアリング関数を導出する。我々の理論は、既存のアプローチを正当化し、新規で改良されたステアリングアプローチを提供する。第二に、バイアスを緩和し、毒性発生を減少させる手法の経験的有効性を実証する一連の実験を提供する。
要約(オリジナル)
Language models often exhibit undesirable behavior, e.g., generating toxic or gender-biased text. In the case of neural language models, an encoding of the undesirable behavior is often present in the model’s representations. Thus, one natural (and common) approach to prevent the model from exhibiting undesirable behavior is to steer the model’s representations in a manner that reduces the probability of it generating undesirable text. This paper investigates the formal and empirical properties of steering functions, i.e., transformation of the neural language model’s representations that alter its behavior. First, we derive two optimal, in the least-squares sense, affine steering functions under different constraints. Our theory provides justification for existing approaches and offers a novel, improved steering approach. Second, we offer a series of experiments that demonstrate the empirical effectiveness of the methods in mitigating bias and reducing toxic generation.
arxiv情報
著者 | Shashwat Singh,Shauli Ravfogel,Jonathan Herzig,Roee Aharoni,Ryan Cotterell,Ponnurangam Kumaraguru |
発行日 | 2024-06-03 10:24:22+00:00 |
arxivサイト | arxiv_id(pdf) |