Householder Pseudo-Rotation: A Novel Approach to Activation Editing in LLMs with Direction-Magnitude Perspective

要約

アクティベーション編集は、大規模言語モデル (LLM) の内部表現を直接編集してその動作を変更し、望ましい特性を実現することを含むもので、有望な研究分野として浮上しています。
既存の研究では、主に LLM のアクティベーションを空間内の点として扱い、ステアリング ベクトルを追加することでそれらを修正します。
ただし、このアプローチでは、必要なアクティベーションの大きさの一貫性を維持しながら、より大きなパフォーマンスの向上を達成する能力には限界があります。
これらの問題を克服するために、私たちは活性化をその方向と大きさの観点から見る新しい編集方法を提案します。
私たちの方法は、Householder Pseudo-Rotation (HPR) と名付けられ、回転変換を模倣するため、起動基準が維持され、さまざまな安全ベンチマークでのパフォーマンスが向上します。

要約(オリジナル)

Activation Editing, which involves directly editting the internal representations of large language models (LLMs) to alter their behaviors and achieve desired properties, has emerged as a promising area of research. Existing works primarily treat LLMs’ activations as points in space and modify them by adding steering vectors. However, this approach is limited in its ability to achieve greater performance improvement while maintaining the necessary consistency of activation magnitudes. To overcome these issues, we propose a novel editing method that views activations in terms of their directions and magnitudes. Our method, named Householder Pseudo-Rotation (HPR), mimics the rotation transformation, thus preserving activation norms and resulting in an improved performance on various safety benchmarks.

arxiv情報

著者 Van-Cuong Pham,Thien Huu Nguyen
発行日 2024-09-16 07:29:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク