要約
大規模な言語モデル(LLMS)に対するペルソナの影響は広く研究されていますが、パフォーマンスへの直接的な影響は不確実なままです。
この作業では、ペルソナベースのプロンプトに代わるロールベクターを介してLLMの動作を導くための新しいアプローチを探ります。
モデルのアクティベーションから派生した29の役割ベクトルを構築し、複数のドメインにわたるベンチマークパフォーマンスへの影響を評価します。
分析では、これらのベクトルがモデルをドメイン固有の専門知識に効果的に誘導できるかどうかを調査します。
2つの重要な介入を測定します。(i)役割固有の方向を強化する活性化の追加と(ii)それらを除去する方向アブレーション。
十分に確立されたベンチマークの結果は、実際にロールベクトルがモデルの動作に影響を与え、関連するドメインのタスクパフォーマンスを改善しながら、無関係なタスクにわずかに影響することを示しています。
これは、内部モデルの表現を操作することが、ペルソナベースのプロンプトよりも結果に大きな影響を与えることを示唆しています。
要約(オリジナル)
The influence of personas on Large Language Models (LLMs) has been widely studied, yet their direct impact on performance remains uncertain. This work explores a novel approach to guiding LLM behaviour through role vectors, an alternative to persona-based prompting. We construct 29 role vectors derived from model activations and evaluate their impact on benchmark performance across multiple domains. Our analysis investigates whether these vectors can effectively steer models toward domain-specific expertise. We measure two key interventions: (i) activation addition, which reinforces role-specific directions, and (ii) directional ablation, which removes them. Results on well-established benchmarks indicate that role vectors do, in fact, influence model behaviour, improving task performance in relevant domains while marginally affecting unrelated tasks. This, in turn, suggests that manipulating internal model representations has a greater impact on outcomes than persona-based prompting.
arxiv情報
| 著者 | Daniele Potertì,Andrea Seveso,Fabio Mercorio |
| 発行日 | 2025-02-17 17:24:37+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google