Linear Representations of Sentiment in Large Language Models

要約

感情は自然言語テキストに広く浸透している機能ですが、大規模言語モデル (LLM) 内で感情がどのように表現されるかは未解決の問題です。
この研究では、さまざまなモデルにわたってセンチメントが線形に表現されることを明らかにしました。つまり、活性化空間の単一の方向が、ある範囲のタスクにわたる特徴を主に捉えており、一方の極値はポジティブで、もう一方の極値はネガティブです。
因果関係のある介入を通じて、この方向を分離し、それがおもちゃのタスクと Stanford Sentiment Treebank などの現実世界のデータセットの両方で因果関係があることを示します。
このケーススタディを通じて、広範なデータ分布において単一方向が何を意味するのかについての徹底的な調査をモデル化します。
私たちはさらに、この方向に関与するメカニズムを明らかにし、注意頭とニューロンの小さなサブセットの役割を強調します。
最後に、要約モチーフと呼ぶ現象を発見します。感情は、感情を帯びた単語だけで表現されるのではなく、句読点や名前など、固有の感情を持たない中間位置でもさらに要約されます。
Stanford Sentiment Treebank のゼロショット分類では、センチメントの方向を除去すると確率を上回る分類精度の 76% が失われ、そのうちのほぼ半分 (36%) は、コンマ位置のみで要約されたセンチメントの方向を除去することによるものであることを示します。

要約(オリジナル)

Sentiment is a pervasive feature in natural language text, yet it is an open question how sentiment is represented within Large Language Models (LLMs). In this study, we reveal that across a range of models, sentiment is represented linearly: a single direction in activation space mostly captures the feature across a range of tasks with one extreme for positive and the other for negative. Through causal interventions, we isolate this direction and show it is causally relevant in both toy tasks and real world datasets such as Stanford Sentiment Treebank. Through this case study we model a thorough investigation of what a single direction means on a broad data distribution. We further uncover the mechanisms that involve this direction, highlighting the roles of a small subset of attention heads and neurons. Finally, we discover a phenomenon which we term the summarization motif: sentiment is not solely represented on emotionally charged words, but is additionally summarized at intermediate positions without inherent sentiment, such as punctuation and names. We show that in Stanford Sentiment Treebank zero-shot classification, 76% of above-chance classification accuracy is lost when ablating the sentiment direction, nearly half of which (36%) is due to ablating the summarized sentiment direction exclusively at comma positions.

arxiv情報

著者 Curt Tigges,Oskar John Hollinsworth,Atticus Geiger,Neel Nanda
発行日 2023-10-23 17:55:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク