Steering Llama 2 via Contrastive Activation Addition

要約

CAAは、フォワードパス中に言語モデルの活性を修正することで、言語モデルのステアリングを行う革新的な手法である。CAAは、特定の動作の肯定的な例と否定的な例のペア(例えば、事実的な応答と幻覚的な応答)の間の残差ストリーム活性度の差を平均化することにより、「ステアリングベクトル」を計算する。推論中、これらのステアリングベクトルは、ユーザのプロンプトの後のすべてのトークン位置に、正または負の係数を付加され、対象とする行動の程度を正確に制御することができる。我々はLlama 2 Chat上で、複数選択肢の行動質問データセットと自由形式の生成タスクを用いてCAAの有効性を評価した。我々は、CAAがモデルの挙動を大きく変化させ、ファインチューニングやシステムプロンプト設計のような伝統的な手法の上でも効果的であり、能力の低下を最小限に抑えることを実証する。さらに、様々な活性化空間解釈法を用いることで、CAAのメカニズムについてより深い洞察を得る。CAAはモデル出力を正確に制御し、高レベルの概念が大規模言語モデル(LLM)においてどのように表現されるかに光を当てる。

要約(オリジナル)

We introduce Contrastive Activation Addition (CAA), an innovative method for steering language models by modifying their activations during forward passes. CAA computes ‘steering vectors’ by averaging the difference in residual stream activations between pairs of positive and negative examples of a particular behavior, such as factual versus hallucinatory responses. During inference, these steering vectors are added at all token positions after the user’s prompt with either a positive or negative coefficient, allowing precise control over the degree of the targeted behavior. We evaluate CAA’s effectiveness on Llama 2 Chat using multiple-choice behavioral question datasets and open-ended generation tasks. We demonstrate that CAA significantly alters model behavior, is effective over and on top of traditional methods like finetuning and system prompt design, and minimally reduces capabilities. Moreover, we gain deeper insights into CAA’s mechanisms by employing various activation space interpretation methods. CAA accurately steers model outputs and sheds light on how high-level concepts are represented in Large Language Models (LLMs).

arxiv情報

著者 Nina Panickssery,Nick Gabrieli,Julian Schulz,Meg Tong,Evan Hubinger,Alexander Matt Turner
発行日 2024-07-05 15:30:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク