Controlling Large Language Models Through Concept Activation Vectors

要約

大規模言語モデル (LLM) がさまざまなドメインに広く展開されるにつれて、生成された出力を制御する機能がより重要になってきています。
この制御には、LLM の出力を人間の価値観や倫理原則に合わせたり、個々のユーザーの特定のトピックやスタイルに基づいて LLM をカスタマイズしたりすることが含まれます。
既存の制御された生成方法は、大量の計算リソースと広範な試行錯誤を必要とするか、または粗粒度の制御を提供します。
この論文では、大量のリソースを必要とする微調整を必要とせずに正確な制御を保証する軽量のモデル制御フレームワークである Generation with Concept Activation Vector (GCAV) を提案します。
具体的には、GCAV はまず、毒性などの制御対象となる特定の概念の概念活性化ベクトルをトレーニングします。
推論中、GCAV は、たとえば活性化層から毒性概念ベクトルを削除することによって、LLM 内の概念ベクトルを制御します。
毒性の軽減、感情の制御、言語スタイル、トピックの制御など、さまざまな観点からの制御実験により、私たちのフレームワークが粒度の高い制御で最先端のパフォーマンスを達成し、ステアリング レイヤーと
個々のサンプルのステアリングの大きさ。

要約(オリジナル)

As large language models (LLMs) are widely deployed across various domains, the ability to control their generated outputs has become more critical. This control involves aligning LLMs outputs with human values and ethical principles or customizing LLMs on specific topics or styles for individual users. Existing controlled generation methods either require significant computational resources and extensive trial-and-error or provide coarse-grained control. In this paper, we propose Generation with Concept Activation Vector (GCAV), a lightweight model control framework that ensures accurate control without requiring resource-extensive fine-tuning. Specifically, GCAV first trains a concept activation vector for specified concepts to be controlled, such as toxicity. During inference, GCAV steers the concept vector in LLMs, for example, by removing the toxicity concept vector from the activation layers. Control experiments from different perspectives, including toxicity reduction, sentiment control, linguistic style, and topic control, demonstrate that our framework achieves state-of-the-art performance with granular control, allowing for fine-grained adjustments of both the steering layers and the steering magnitudes for individual samples.

arxiv情報

著者 Hanyu Zhang,Xiting Wang,Chengao Li,Xiang Ao,Qing He
発行日 2025-01-10 07:41:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク