HSI: Head-Specific Intervention Can Induce Misaligned AI Coordination in Large Language Models

要約

大規模な言語モデル向けの堅牢なアライメントガードレールは、広範囲にわたるアプリケーションでますます重要になっています。
以前の研究とは対照的に、推論時間活性化介入が安全アライメントをバイパスし、モデルの世代をラマ2の有害なAI調整に効果的に導くことができることを実証します。私たちの方法は、特定のモデルサブコンポーネント、特に単純なバイナリ選択プロービング戦略を使用して、特に注意ヘッドで微調整された介入を適用します。
これらの介入は、安全ガードレールを効果的に回避するオープンエンドの世代の設定に一般化します。
単一の注意ヘッドを調べることは、完全な層に介入するよりも効果的であり、4つの注意ヘッドのみに介入することは、監視された微調整に匹敵することを示しています。
さらに、効果的なステアリング方向を計算するために必要な例がいくつかあることを示します。これは、古典的な微調整よりも利点です。
私たちの調査結果は、現在のアライメント手法の欠点を強調しています。
さらに、我々の結果は、注意ヘッドレベルでは、活性化が細粒の直線的に分離可能な動作をエンコードすることを示唆しています。
実際には、このアプローチは、大きな言語モデルの動作を操縦するための簡単な方法論を提供します。これは、モデル出力をきめんった制御を必要とする安全性を超えて多様なドメインに拡張できます。
この調査のコードとデータセットは、https://github.com/pauldrm/targeted_interventionにあります。

要約(オリジナル)

Robust alignment guardrails for large language models are becoming increasingly important with their widespread application. In contrast to previous studies, we demonstrate that inference-time activation interventions can bypass safety alignments and effectively steer model generations towards harmful AI coordination for Llama 2. Our method applies fine-grained interventions at specific model subcomponents, particularly attention heads, using a simple binary choice probing strategy. These interventions then generalise to the open-ended generation setting effectively circumventing safety guardrails. We show that probing single attention heads is more effective than intervening on full layers and intervening on only four attention heads is comparable to supervised fine-tuning. We further show that only a few example completions are needed to compute effective steering directions, which is an advantage over classical fine-tuning. Our findings highlight the shortcomings of current alignment techniques. In addition, our results suggest that, at the attention head level, activations encode fine-grained linearly separable behaviors. Practically, the approach offers a straightforward methodology to steer large language model behaviour, which could be extended to diverse domains beyond safety requiring fine-grained control over the model output. The code and datasets for this study can be found on https://github.com/PaulDrm/targeted_intervention.

arxiv情報

著者 Paul Darm,Annalisa Riccardi
発行日 2025-05-01 09:03:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク