Activation Addition: Steering Language Models Without Optimization

要約

大規模な言語モデルの動作を確実に制御することは、差し迫った未解決の問題です。
既存の手法には、教師あり微調整、人間のフィードバックからの強化学習、プロンプトエンジニアリング、ガイド付きデコーディングなどがあります。
代わりに、モデルの動作を予測どおりに変更するために、推論時にアクティベーションを変更するアクティベーション エンジニアリングを調査します。
自然言語を通じて暗黙的に指定された「ステアリング ベクトル」を使用してフォワード パスにバイアスをかけます。
過去の研究では、これらのステアリングベクトルを学習しました。
代わりに、アクティベーション加算 (ActAdd) メソッドは、プロンプトのペアから生じるアクティベーションの差を取得することによってそれらを計算します。
OpenWebText および ConceptNet 上の GPT-2 で ActAdd をデモし、その効果を Llama-13B および GPT-J-6B で再現します。
私たちのアプローチにより、出力の高レベルのプロパティに対する推論時間の制御が可能になり、対象外のトピックのパフォーマンスが維持されます。
この方法では、ファインチューニングや RLHF よりもはるかに少ない計算と実装の労力が必要で、ユーザーによる自然言語の仕様が可能で、そのオーバーヘッドはモデルのサイズに応じて自然に拡張されます。

要約(オリジナル)

Reliably controlling the behavior of large language models is a pressing open problem. Existing methods include supervised finetuning, reinforcement learning from human feedback, prompt engineering and guided decoding. We instead investigate activation engineering: modifying activations at inference-time to predictably alter model behavior. We bias the forward pass with a ‘steering vector’ implicitly specified through natural language. Past work learned these steering vectors; our Activation Addition (ActAdd) method instead computes them by taking the activation differences which result from pairs of prompts. We demonstrate ActAdd on GPT-2 on OpenWebText and ConceptNet, and replicate the effect on Llama-13B and GPT-J-6B. Our approach yields inference-time control over high-level properties of output & preserves performance on off-target topics. The method requires far less compute and implementation effort than finetuning and RLHF, allows for natural language specification by users, and its overhead scales naturally with model size.

arxiv情報

著者 Alexander Matt Turner,Lisa Thiergart,David Udell,Gavin Leech,Ulisse Mini,Monte MacDiarmid
発行日 2023-11-13 14:05:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク