Multi-property Steering of Large Language Models with Dynamic Activation Composition

要約

アクティベーションステアリング手法は、モデルの中間表現に追加的に介入することにより、言語モデルの生成を調整するのに効果的であることが示されました。
ただし、これらの技術の評価はこれまで、単一のコンディショニング特性と合成設定に限定されていました。
この研究では、さまざまな活性化ステアリング戦略の包括的な評価を実施し、生成全体を通じてロバストな効果を保証するための最適なパラメーターの特性依存の性質に焦点を当てます。
この問題に対処するために、生成全体を通じて 1 つ以上のプロパティのステアリング強度を調整するための情報理論的アプローチである Dynamic Activation Composite を提案します。
マルチプロパティステアリングに関する私たちの実験は、私たちの方法が生成流暢性に対するコンディショニングの影響を最小限に抑えながら、高いコンディショニングをうまく維持することに成功したことを示しています。

要約(オリジナル)

Activation steering methods were shown to be effective in conditioning language model generation by additively intervening over models’ intermediate representations. However, the evaluation of these techniques has so far been limited to single conditioning properties and synthetic settings. In this work, we conduct a comprehensive evaluation of various activation steering strategies, highlighting the property-dependent nature of optimal parameters to ensure a robust effect throughout generation. To address this issue, we propose Dynamic Activation Composition, an information-theoretic approach to modulate the steering intensity of one or more properties throughout generation. Our experiments on multi-property steering show that our method successfully maintains high conditioning while minimizing the impact of conditioning on generation fluency.

arxiv情報

著者 Daniel Scalena,Gabriele Sarti,Malvina Nissim
発行日 2024-06-25 14:00:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク