要約
言語モデルの因果生成メカニズムを理解し、操作することは、その行動を制御するために不可欠です。
以前の研究では、主に表現手術などの技術(例えば、特定の概念に結び付けられた線形サブスペースのモデルアブレーションや操作)に依存していました。
介入の影響を正確に理解するために、\ emph {counteractuals}を調べることが有用です。たとえば、特定の介入後にモデルによって生成された場合、与えられた文がどのように現れたか。
パールの因果階層で明確にされているように、反事実上の推論は概念的に介入とは異なることを強調します。
この観察に基づいて、Gumbel-Max Trickを使用して言語モデルを構造方程式モデルとして再編成することにより、真の文字列反事実を生成するためのフレームワークを提案します。
この再定式化により、サンプリングノイズの同じインスタンス化に起因する元の文字列とそれらの反事実上の共同分布をモデル化することができます。
後知恵のガンベルサンプリングに基づいてアルゴリズムを開発し、潜在的なノイズ変数を推測し、観測された文字列の反事実を生成できます。
私たちの実験は、このアプローチが意味のある反事実を生成すると同時に、一般的に使用される介入技術がかなりの望ましくない副作用を持っていることを示すと同時に示すことを示しています。
要約(オリジナル)
Understanding and manipulating the causal generation mechanisms in language models is essential for controlling their behavior. Previous work has primarily relied on techniques such as representation surgery — e.g., model ablations or manipulation of linear subspaces tied to specific concepts — to \emph{intervene} on these models. To understand the impact of interventions precisely, it is useful to examine \emph{counterfactuals} — e.g., how a given sentence would have appeared had it been generated by the model following a specific intervention. We highlight that counterfactual reasoning is conceptually distinct from interventions, as articulated in Pearl’s causal hierarchy. Based on this observation, we propose a framework for generating true string counterfactuals by reformulating language models as a structural equation model using the Gumbel-max trick, which we called Gumbel counterfactual generation. This reformulation allows us to model the joint distribution over original strings and their counterfactuals resulting from the same instantiation of the sampling noise. We develop an algorithm based on hindsight Gumbel sampling that allows us to infer the latent noise variables and generate counterfactuals of observed strings. Our experiments demonstrate that the approach produces meaningful counterfactuals while at the same time showing that commonly used intervention techniques have considerable undesired side effects.
arxiv情報
著者 | Shauli Ravfogel,Anej Svete,Vésteinn Snæbjarnarson,Ryan Cotterell |
発行日 | 2025-03-06 15:26:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google