要約
大規模な言語モデル(LLM)は、さまざまな主観的な人間の視点を現実的に反映するテキストを生成する能力を実証しています。
このペーパーでは、LLMがどのようにして、アメリカの政治における他の政治的視点の中で、より自由な視点とより保守的な視点を反映できるように見える方法を研究しています。
LLMSは、活性化空間内で政治的視点の線形表現を持っていることを示します。
そのために、3つのオープントランスベースのLLMS(LLAMA-2-7B-chat、Mistral-7B-Instruct、Vicuna-7B)の層を横切る注意ヘッドを調べます。
最初に、異なる米国の議員の視点からテキストを生成するようにモデルを促します。
次に、政治的イデオロギーの広く使用された検証済みの尺度である議員のDWに賛成したスコアを活性化するアクティベーションが直線的に予測する注意ヘッドのセットを特定します。
高度に予測的なヘッドは主に中間層に位置しており、多くの場合、高レベルの概念とタスクをエンコードすると推測されています。
議員のイデオロギーを予測するために訓練されたプローブを使用して、同じプローブが、ニュースアウトレットからテキストをシミュレートするように促されたモデルのアクティベーションからのニュースアウトレットの傾斜の尺度を予測できることを示します。
これらの線形プローブにより、LLMがオープンエンドの応答を生成するため、LLMによって暗黙的に採用されたイデオロギーのスタンスを視覚化、解釈、監視することができます。
最後に、これらの注意ヘッドに線形介入を適用することにより、モデルの出力をよりリベラルまたは保守的な姿勢に向けることができることを実証します。
全体として、私たちの研究は、LLMSがアメリカの政治的イデオロギーの高レベルの線形表現を持っており、機械的解釈性の最近の進歩を活用することにより、生成されたテキストの基礎となる主観的な視点を特定、監視、および操縦できることを示唆しています。
要約(オリジナル)
Large language models (LLMs) have demonstrated the ability to generate text that realistically reflects a range of different subjective human perspectives. This paper studies how LLMs are seemingly able to reflect more liberal versus more conservative viewpoints among other political perspectives in American politics. We show that LLMs possess linear representations of political perspectives within activation space, wherein more similar perspectives are represented closer together. To do so, we probe the attention heads across the layers of three open transformer-based LLMs (Llama-2-7b-chat, Mistral-7b-instruct, Vicuna-7b). We first prompt models to generate text from the perspectives of different U.S. lawmakers. We then identify sets of attention heads whose activations linearly predict those lawmakers’ DW-NOMINATE scores, a widely-used and validated measure of political ideology. We find that highly predictive heads are primarily located in the middle layers, often speculated to encode high-level concepts and tasks. Using probes only trained to predict lawmakers’ ideology, we then show that the same probes can predict measures of news outlets’ slant from the activations of models prompted to simulate text from those news outlets. These linear probes allow us to visualize, interpret, and monitor ideological stances implicitly adopted by an LLM as it generates open-ended responses. Finally, we demonstrate that by applying linear interventions to these attention heads, we can steer the model outputs toward a more liberal or conservative stance. Overall, our research suggests that LLMs possess a high-level linear representation of American political ideology and that by leveraging recent advances in mechanistic interpretability, we can identify, monitor, and steer the subjective perspective underlying generated text.
arxiv情報
著者 | Junsol Kim,James Evans,Aaron Schein |
発行日 | 2025-04-02 08:53:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google