Identifying Linear Relational Concepts in Large Language Models

要約

トランスフォーマー言語モデル (LM) は、隠れた活性化の潜在空間内の方向として概念を表すことが示されています。
しかし、人間が解釈可能な任意の概念について、潜在空間でその方向性をどのように見つけることができるでしょうか?
我々は、最初にサブジェクトとオブジェクトの間の関係を線形関係埋め込み (LRE) としてモデル化することによって、トランスフォーマー LM の特定の隠れ層で人間が解釈可能な概念に対応する概念の方向性を見つけるための線形関係概念 (LRC) と呼ばれる手法を紹介します。
LRE の作業は主にモデル表現を理解するための演習として提示されましたが、初期のオブジェクト層を使用しながら LRE を反転すると、分類子としてうまく機能し、モデルの出力に因果的に影響を与える概念の方向性を見つけるための強力なテクニックが得られることがわかりました。

要約(オリジナル)

Transformer language models (LMs) have been shown to represent concepts as directions in the latent space of hidden activations. However, for any given human-interpretable concept, how can we find its direction in the latent space? We present a technique called linear relational concepts (LRC) for finding concept directions corresponding to human-interpretable concepts at a given hidden layer in a transformer LM by first modeling the relation between subject and object as a linear relational embedding (LRE). While the LRE work was mainly presented as an exercise in understanding model representations, we find that inverting the LRE while using earlier object layers results in a powerful technique to find concept directions that both work well as a classifier and causally influence model outputs.

arxiv情報

著者 David Chanin,Anthony Hunter,Oana-Maria Camburu
発行日 2023-11-15 14:01:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク