Analyzing the Generalization and Reliability of Steering Vectors

要約

ステアリング ベクトル (SV) は、中間モデルのアクティベーションに介入することにより、推論時に言語モデルの動作を調整する効果的なアプローチとして提案されています。
これらは、機能とモデルの整合性の両方を向上させるという点で有望であることが示されています。
ただし、このアプローチの信頼性と一般化特性は不明です。
この研究では、これらの特性を厳密に調査し、ステアリング ベクトルには分布内と分布外の両方で実質的な制限があることを示します。
分配では、操縦性は入力が異なると大きく変化します。
コンセプトによっては、スプリアス バイアスが各入力に対するステアリングの効果に大きく寄与する可能性があり、ステアリング ベクトルの広範な使用に課題をもたらします。
分布外では、ステアリング ベクトルはよく一般化することがよくありますが、いくつかの概念では、プロンプトの合理的な変更に対して脆弱であり、その結果、うまく一般化できません。
全体として、私たちの調査結果は、ステアリングは適切な状況では適切に機能するものの、大規模なモデルの動作をガイドするためにステアリング ベクトルを適用することには技術的な困難が依然としてあることを示しています。
私たちのコードは https://github.com/dtch1997/steering-bench で入手できます。

要約(オリジナル)

Steering vectors (SVs) have been proposed as an effective approach to adjust language model behaviour at inference time by intervening on intermediate model activations. They have shown promise in terms of improving both capabilities and model alignment. However, the reliability and generalisation properties of this approach are unknown. In this work, we rigorously investigate these properties, and show that steering vectors have substantial limitations both in- and out-of-distribution. In-distribution, steerability is highly variable across different inputs. Depending on the concept, spurious biases can substantially contribute to how effective steering is for each input, presenting a challenge for the widespread use of steering vectors. Out-of-distribution, while steering vectors often generalise well, for several concepts they are brittle to reasonable changes in the prompt, resulting in them failing to generalise well. Overall, our findings show that while steering can work well in the right circumstances, there remain technical difficulties of applying steering vectors to guide models’ behaviour at scale. Our code is available at https://github.com/dtch1997/steering-bench

arxiv情報

著者 Daniel Tan,David Chanin,Aengus Lynch,Dimitrios Kanoulas,Brooks Paige,Adria Garriga-Alonso,Robert Kirk
発行日 2024-12-23 14:04:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク