要約
言語モデルの因果生成メカニズムを理解して操作することは、言語モデルの動作を制御するために不可欠です。
これまでの研究では、これらのモデルに介入するために、主に表現手術などの技術、たとえばモデルのアブレーションや特定の概念に関連付けられた線形部分空間の操作に依存していました。
介入の影響を正確に理解するには、反事実を調べることが役立ちます。たとえば、特定の介入後のモデルによって特定の文が生成された場合に、その文がどのように表示されるかなどです。
パールの因果階層で明確に表現されているように、反事実推論は概念的に介入とは区別されることを強調します。
この観察に基づいて、言語モデルを一般化構造方程式として再定式化することにより、真の文字列反事実を生成するためのフレームワークを提案します。
ガンベルマックストリックを使用したモデル。
これにより、元の文字列にわたる結合分布と、サンプリング ノイズの同じインスタンス化から生じる反事実をモデル化することができます。
私たちは、潜在的なノイズ変数を推測し、観察された文字列の反事実を生成できる、後知恵のガンベル サンプリングに基づくアルゴリズムを開発しました。
私たちの実験は、このアプローチが意味のある反事実を生み出すと同時に、一般的に使用される介入手法にはかなりの望ましくない副作用があることを示しています。
要約(オリジナル)
Understanding and manipulating the causal generation mechanisms in language models is essential for controlling their behavior. Previous work has primarily relied on techniques such as representation surgery — e.g., model ablations or manipulation of linear subspaces tied to specific concepts — to intervene on these models. To understand the impact of interventions precisely, it is useful to examine counterfactuals — e.g., how a given sentence would have appeared had it been generated by the model following a specific intervention. We highlight that counterfactual reasoning is conceptually distinct from interventions, as articulated in Pearl’s causal hierarchy. Based on this observation, we propose a framework for generating true string counterfactuals by reformulating language models as Generalized Structural-equation. Models using the Gumbel-max trick. This allows us to model the joint distribution over original strings and their counterfactuals resulting from the same instantiation of the sampling noise. We develop an algorithm based on hindsight Gumbel sampling that allows us to infer the latent noise variables and generate counterfactuals of observed strings. Our experiments demonstrate that the approach produces meaningful counterfactuals while at the same time showing that commonly used intervention techniques have considerable undesired side effects.
arxiv情報
著者 | Shauli Ravfogel,Anej Svete,Vésteinn Snæbjarnarson,Ryan Cotterell |
発行日 | 2024-11-11 17:57:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google