Steering Large Language Models using Conceptors: Improving Addition-Based Activation Engineering

要約

大規模な言語モデルは AI を変革しましたが、その出力を確実に制御することは依然として課題です。
この論文では、事前にトレーニングされた LLM の出力が、推論時にそのアクティベーションを操作することによって制御されるアクティベーション エンジニアリングについて考察します。
単一のステアリング ベクトルを使用する従来の方法とは異なり、アクティベーション ベクトルのセットを楕円体領域として表す数学的構造であるコンセプターを導入します。
コンセプターはソフト射影行列として機能し、複雑なアクティベーション パターンをより正確に制御します。
私たちの実験では、複数のステアリング タスクにわたってコンセプターが従来の手法を上回るパフォーマンスを示しています。
さらに、組み合わせたステアリング目標に対してコンセプターでブール演算を使用します。これは経験的に、一連のタスクでステアリング ベクトルを加算的に組み合わせるよりも優れたパフォーマンスを発揮します。
これらの結果は、LLM をより効果的に操作するための有望なツールとしてコンセプターを強調しています。
私たちのコードは github.com/jorispos/conceptorsteering で入手できます。

要約(オリジナル)

Large language models have transformed AI, yet reliably controlling their outputs remains a challenge. This paper explores activation engineering, where outputs of pre-trained LLMs are controlled by manipulating their activations at inference time. Unlike traditional methods using a single steering vector, we introduce conceptors – mathematical constructs that represent sets of activation vectors as ellipsoidal regions. Conceptors act as soft projection matrices and offer more precise control over complex activation patterns. Our experiments demonstrate that conceptors outperform traditional methods across multiple steering tasks. We further use Boolean operations on conceptors for combined steering goals that empirically outperform additively combining steering vectors on a set of tasks. These results highlight conceptors as a promising tool for more effective steering of LLMs. Our code is available on github.com/jorispos/conceptorsteering.

arxiv情報

著者 Joris Postmus,Steven Abreu
発行日 2025-01-13 16:53:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE パーマリンク