Towards Reliable Evaluation of Behavior Steering Interventions in LLMs

要約

表現エンジニアリング手法は最近、モデルの動作の効率的な操作を可能にする可能性を示しています。
ただし、これらの手法の評価パイプラインは、定量的で客観的な指標ではなく、主に主観的な実証に依存していました。
私たちは、現在の評価に欠けている 4 つの特性を提唱することで、この問題に対処するための一歩を踏み出すことを目指しています。
(ii) モデルの尤度を考慮する必要があります。
(iii) 評価では、さまざまな対象行動にわたる標準化された比較が可能である必要があります。
(iv) ベースライン比較を提供する必要があります。
これらの基準に基づいた評価パイプラインを導入し、特定の方法がどの程度効果的に機能するかを定量的かつ視覚的に分析できます。
私たちはこのパイプラインを使用して、真実性や正しさなどの行動をどの程度効果的に誘導できるかについて 2 つの表現エンジニアリング手法を評価し、一部の介入が以前に報告されているほど効果的でないことが判明しました。

要約(オリジナル)

Representation engineering methods have recently shown promise for enabling efficient steering of model behavior. However, evaluation pipelines for these methods have primarily relied on subjective demonstrations, instead of quantitative, objective metrics. We aim to take a step towards addressing this issue by advocating for four properties missing from current evaluations: (i) contexts sufficiently similar to downstream tasks should be used for assessing intervention quality; (ii) model likelihoods should be accounted for; (iii) evaluations should allow for standardized comparisons across different target behaviors; and (iv) baseline comparisons should be offered. We introduce an evaluation pipeline grounded in these criteria, offering both a quantitative and visual analysis of how effectively a given method works. We use this pipeline to evaluate two representation engineering methods on how effectively they can steer behaviors such as truthfulness and corrigibility, finding that some interventions are less effective than previously reported.

arxiv情報

著者 Itamar Pres,Laura Ruis,Ekdeep Singh Lubana,David Krueger
発行日 2024-10-22 17:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク