Activation Addition: Steering Language Models Without Optimization

要約

大規模な言語モデルの動作を確実に制御することは、差し迫った未解決の問題である。既存の方法には、教師ありの微調整、人間のフィードバックからの強化学習、プロンプトエンジニアリング、ガイド付きデコーディングなどがある。我々はその代わりに活性化工学を研究している。推論時に活性化を修正することで、モデルの振る舞いを予測可能に変化させる。特に、自然言語によって暗黙的に指定された「ステアリングベクトル」を追加することで、フォワードパスにバイアスをかける。 このようなステアリングベクトルを学習した過去の研究とは異なり、我々の活性化加算(ActAdd)法は、プロンプトのペアから生じる活性化の差異を取ることによってそれらを計算する。我々はOpenWebTextとConceptNet上のGPT-2でActAddを実証する。我々の推論時間アプローチは、高レベルの出力特性を制御し、オフターゲットモデルの性能を維持する。ファインチューニングよりもはるかに少ない計算と実装の労力で、ユーザが自然言語仕様を提供することができ、そのオーバーヘッドはモデルサイズとともに自然にスケールする。

要約(オリジナル)

Reliably controlling the behavior of large language models is a pressing open problem. Existing methods include supervised finetuning, reinforcement learning from human feedback, prompt engineering, and guided decoding. We instead investigate activation engineering: modifying activations at inference time to predictably alter model behavior. In particular, we bias the forward pass with an added ‘steering vector’ implicitly specified through natural language. Unlike past work which learned these steering vectors, our Activation Addition (ActAdd) method computes them by taking the activation differences that result from pairs of prompts. We demonstrate ActAdd on GPT-2 on OpenWebText and ConceptNet. Our inference-time approach yields control over high-level properties of output and preserves off-target model performance. It involves far less compute and implementation effort than finetuning, allows users to provide natural language specifications, and its overhead scales naturally with model size.

arxiv情報

著者 Alexander Matt Turner,Lisa Thiergart,David Udell,Gavin Leech,Ulisse Mini,Monte MacDiarmid
発行日 2023-09-01 17:07:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク