要約
線形部分空間仮説(Bolukbasi et al。、2016)は、言語モデルの表現空間では、言語数などの概念に関するすべての情報が線形部分空間でエンコードされると述べています。
以前の作業は、この仮説をサポートする可能性のある候補者の部分空間を特定して評価するために、補助分類タスクに依存しています。
代わりに、理想的な線形概念サブスペースを特徴付ける一連の固有基準を提供し、言語モデルの分布のみを使用してサブスペースを識別できるようにします。
私たちの情報理論的フレームワークは、概念情報の統計的概念と表現空間で概念がどのようにエンコードされるかについての幾何学的概念を調整することにより、表現空間における微小相関の特徴を説明します(Kumar et al。、2022)。
この分析の副産物として、言語モデルが生成中に概念を活用する方法の因果プロセスを仮定します。
経験的には、線形概念の消去は、口頭数のフレームワークの下でほとんどの概念情報を消去することと、レストランレビューデータセットの複雑なアスペクトレベルの感情概念を消去することに成功していることがわかります。
制御された生成に対する私たちの因果的介入は、2つの言語モデルにわたる少なくとも1つの概念について、概念サブスペースを使用して、生成された単語の概念値を精度で操作できることを示しています。
要約(オリジナル)
The linear subspace hypothesis (Bolukbasi et al., 2016) states that, in a language model’s representation space, all information about a concept such as verbal number is encoded in a linear subspace. Prior work has relied on auxiliary classification tasks to identify and evaluate candidate subspaces that might give support for this hypothesis. We instead give a set of intrinsic criteria which characterize an ideal linear concept subspace and enable us to identify the subspace using only the language model distribution. Our information-theoretic framework accounts for spuriously correlated features in the representation space (Kumar et al., 2022) by reconciling the statistical notion of concept information and the geometric notion of how concepts are encoded in the representation space. As a byproduct of this analysis, we hypothesize a causal process for how a language model might leverage concepts during generation. Empirically, we find that linear concept erasure is successful in erasing most concept information under our framework for verbal number as well as some complex aspect-level sentiment concepts from a restaurant review dataset. Our causal intervention for controlled generation shows that, for at least one concept across two languages models, the concept subspace can be used to manipulate the concept value of the generated word with precision.
arxiv情報
著者 | Clément Guerner,Tianyu Liu,Anej Svete,Alexander Warstadt,Ryan Cotterell |
発行日 | 2025-03-26 16:33:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google