LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models

要約

大規模言語モデル (LLM) は、意味的に同等の言い換え入力を要求されると、一貫性のない応答を生成することがよくあります。
最近、アクティベーション ステアリング (推論時間中に LLM の潜在表現を調整することで LLM の動作を調整する手法) が、LLM の意味的一貫性を向上させるために研究されています。
ただし、これらのメソッドは通常、レイヤーの隠れ状態やアテンション ヘッドの出力などのモデル コンポーネント レベルで動作します。
LLM のモデル コンポーネントは通常、複数の絡み合った特徴をエンコードするため、正確なステアリングが困難になるという「多意味性問題」による課題に直面しています。
この課題に対処するために、私たちは特徴レベルの表現にドリルダウンし、セマンティックの不一致の原因となる潜在的な特徴表現を正確に特定するための新しいアクティベーション ステアリング アプローチである LF ステアリングを提案します。
より具体的には、私たちの方法は、関連するトランスフォーマー層の隠れた状態を、スパースオートエンコーダー(SAE)に基づいて、まばらに活性化された高次元の特徴空間にマッピングし、最小限の干渉で分離された特徴表現に基づいたモデルステアリングを保証します。
NLU および NLG データセットに関する包括的な実験により、セマンティック一貫性の向上における私たちの手法の有効性が実証され、その結果、さまざまな NLU および NLG タスクのパフォーマンスが大幅に向上します。

要約(オリジナル)

Large Language Models (LLMs) often generate inconsistent responses when prompted with semantically equivalent paraphrased inputs. Recently, activation steering, a technique that modulates LLMs’ behaviours by adjusting their latent representations during inference time, has been explored to improve the semantic consistency of LLMs. However, these methods typically operate at the model component level, such as layer hidden states or attention head outputs. They face a challenge due to the “polysemanticity issue”, where the model components of LLMs typically encode multiple entangled features, making precise steering difficult. To address this challenge, we drill down to feature-level representations and propose LF-Steering, a novel activation steering approach to precisely identify latent feature representations responsible for semantic inconsistency. More specifically, our method maps the hidden states of the relevant transformer layer into a sparsely activated, high-dimensional feature space based on a sparse autoencoder (SAE), ensuring model steering based on decoupled feature representations with minimal interference. Comprehensive experiments on NLU and NLG datasets demonstrate the effectiveness of our method in enhancing semantic consistency, resulting in significant performance gains for various NLU and NLG tasks.

arxiv情報

著者 Jingyuan Yang,Rongjun Li,Weixuan Wang,Ziyu Zhou,Zhiyong Feng,Wei Peng
発行日 2025-01-22 13:53:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク