Self-Control of LLM Behaviors by Compressing Suffix Gradient into Prefix Controller

要約

私たちは、明示的な人間による注釈なしで大規模言語モデル (LLM) の動作を制御するためにサフィックス勾配を利用する新しい方法である Self-Control を提案します。
サフィックス文字列で表現されたガイドラインとモデルの遵守の自己評価が与えられると、Self-Control はモデルの隠れた状態に関するこの自己判断の勾配を計算し、望ましい動作に向けた自己回帰生成プロセスに直接影響を与えます。
効率を高めるために、接尾辞勾配から学習した表現をプレフィックス コントローラーにカプセル化するコンパクトなモジュールである Self-Control_{prefix} を導入し、さまざまな LLM 動作の推論時間の制御を容易にします。
私たちの実験では、感情の調整、無害性の確保、複雑な推論の強化など、複数の領域にわたるセルフコントロールの有効性を実証しています。
特に、Self-Control_{prefix} はプラグ アンド プレイ制御を可能にし、複数の属性を共同制御することで、モデル パラメーターを変更したり、推論時間のコストを増加させたりすることなく、モデルの出力を向上させます。

要約(オリジナル)

We propose Self-Control, a novel method utilizing suffix gradients to control the behavior of large language models (LLMs) without explicit human annotations. Given a guideline expressed in suffix string and the model’s self-assessment of adherence, Self-Control computes the gradient of this self-judgment concerning the model’s hidden states, directly influencing the auto-regressive generation process towards desired behaviors. To enhance efficiency, we introduce Self-Control_{prefix}, a compact module that encapsulates the learned representations from suffix gradients into a Prefix Controller, facilitating inference-time control for various LLM behaviors. Our experiments demonstrate Self-Control’s efficacy across multiple domains, including emotional modulation, ensuring harmlessness, and enhancing complex reasoning. Especially, Self-Control_{prefix} enables a plug-and-play control and jointly controls multiple attributes, improving model outputs without altering model parameters or increasing inference-time costs.

arxiv情報

著者 Min Cai,Yuchen Zhang,Shichang Zhang,Fan Yin,Difan Zou,Yisong Yue,Ziniu Hu
発行日 2024-06-18 15:58:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク