Steering Knowledge Selection Behaviours in LLMs via SAE-Based Representation Engineering

要約

大規模言語モデル (LLM) は、パラメーターに大量の事実の知識を保存できます。
ただし、パラメトリックな知識がコンテキストで提供される情報と競合する可能性があります。\emph{コンテキストとメモリの知識の競合} として知られるこの現象は、古い情報や不正確な情報への依存など、モデルの望ましくない動作を引き起こす可能性があります。
LLM の内部活性化を分析すると、LLM が中間層で知識の衝突の信号を内部的に記録できることがわかりました。
このような信号により、知識の矛盾が発生しているかどうかを検出し、 \emph{推論時間} の介入戦略を使用して解決することができます。
この研究では、事前にトレーニングされたスパース自動エンコーダ (SAE) を使用して LLM の知識選択動作を制御する \emph{トレーニング不要の} 表現エンジニアリング手法である \textsc{SpARE} を提案します。
\textsc{SpARE} は、知識選択動作を制御する機能を特定し、それらを適用して推論時に LLM の内部アクティブ化を編集します。
私たちの実験結果は、\textsc{SpARE} が既存の表現工学手法 ($+10\%$) や対照的デコードを超えて、オープンドメインの質問応答タスクにおける知識の競合を解決するために、どちらかの知識ソースの使用を効果的に制御できることを示しています。
メソッド ($+15\%$)。

要約(オリジナル)

Large language models (LLMs) can store a significant amount of factual knowledge in their parameters. However, their parametric knowledge may conflict with the information provided in the context — this phenomenon, known as \emph{context-memory knowledge conflicts}, can lead to undesirable model behaviour, such as reliance on outdated or incorrect information. Analysing the internal activations of LLMs, we find that they can internally register the signals of knowledge conflict at mid-layers. Such signals allow us to detect whether a knowledge conflict occurs and use \emph{inference-time} intervention strategies to resolve it. In this work, we propose \textsc{SpARE}, a \emph{training-free} representation engineering method that uses pre-trained sparse auto-encoders (SAEs) to control the knowledge selection behaviour of LLMs. \textsc{SpARE} identifies the functional features that control the knowledge selection behaviours and applies them to edit the internal activations of LLMs at inference time. Our experimental results show that \textsc{SpARE} can effectively control the usage of either knowledge source to resolve knowledge conflict in open-domain question-answering tasks, surpassing existing representation engineering methods ($+10\%$) as well as contrastive decoding methods ($+15\%$).

arxiv情報

著者 Yu Zhao,Alessio Devoto,Giwon Hong,Xiaotang Du,Aryo Pradipta Gema,Hongru Wang,Xuanli He,Kam-Fai Wong,Pasquale Minervini
発行日 2024-10-25 14:17:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク