A Geometric Notion of Causal Probing

要約

大規模な言語モデルは、テキストの実数値表現に基づいて予測を行います。
これらの表現には、言語特性や性別などに基づく人口統計上の偏りの形態に関する知識など、モデルがトレーニングしたデータから学習した情報が含まれています。
表現空間の部分空間への直交投影を使用して、このような概念に関する情報を検討する研究が増えています。
私たちは、言語モデルの表現空間の部分空間における固有情報の正式な定義を提案することで、この一連の研究に貢献しています。
我々は、部分空間内の成分とその直交補体を独立して処理することにより、偽相関の失敗モードを回避する反事実的なアプローチを提案します (Kumar et al., 2022)。
部分空間内の情報に関する反事実的な概念が、因果概念部分空間によって最適化されていることを示します。
さらに、この介入により、表現の概念的コンポーネントの値を操作することによって、概念制御された生成を試みることができます。
経験的に、R-LACE (Ravfogel et al., 2022) は、フレームワークの下で全体の概念情報の約半分を含む 1 次元部分空間を返すことがわかりました。
私たちの因果制御介入は、少なくとも 1 つのモデルについて、R-LACE によって返された部分空間を使用して、生成された単語の概念値を正確に操作できることを示しています。

要約(オリジナル)

Large language models rely on real-valued representations of text to make their predictions. These representations contain information learned from the data that the model has trained on, including knowledge of linguistic properties and forms of demographic bias, e.g., based on gender. A growing body of work has considered information about concepts such as these using orthogonal projections onto subspaces of the representation space. We contribute to this body of work by proposing a formal definition of intrinsic information in a subspace of a language model’s representation space. We propose a counterfactual approach that avoids the failure mode of spurious correlations (Kumar et al., 2022) by treating components in the subspace and its orthogonal complement independently. We show that our counterfactual notion of information in a subspace is optimizing by an causal concept subspace. Furthermore, this intervention allows us to attempt concept controlled generation by manipulating the value of the conceptual component of a representation. Empirically, we find that R-LACE (Ravfogel et al., 2022) returns a one-dimensional subspace containing roughly half of total concept information under our framework. Our causal controlled intervention shows that, for at least one model, the subspace returned by R-LACE can be used to manipulate the concept value of the generated word with precision.

arxiv情報

著者 Clément Guerner,Anej Svete,Tianyu Liu,Alexander Warstadt,Ryan Cotterell
発行日 2023-07-27 17:57:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク