ControlLM: Crafting Diverse Personalities for Language Models

要約

言語モデルのサイズと機能が拡大し続けるにつれて、有益であると同時に懸念される一連の新たな動作が示されています。
これにより、モデルの動作を制御する必要性が高まります。
私たちは、推論時に言語モデルの性格特性を制御して、さまざまな性格特徴を持たせ、その上でさまざまなタイプのタスクの要件を満たすことができるようにしたいと考えています。
パーソナリティは、言語モデルのより高レベルでより抽象的な行動表現です。
ControlLM を導入します。これは、モデルの潜在空間内の対照的な行動プロンプトから派生した差分活性化パターンを活用して、推論時のモデルの性格特性に影響を与えます。
このアプローチにより、モデルの動作を正確にリアルタイムで調整できます。
まず、トレーニングなしで多様なペルソナの行動を引き出す ControlLM の能力を実証しますが、精密な制御により、人格特性が人間の平均的な価値観にほぼ一致することが可能になります。
続いて、誠実さや親しみやすさなどの有益な属性を選択的に増幅することで、推論と質問応答の向上を示します。
私たちは、この研究が言語モデルの人間に似た行動の制御に関する研究に刺激を与え、将来の研究への洞察を提供することを願っています。
私たちのコードは https://github.com/wengsyx/ControlLM で公開されています。

要約(オリジナル)

As language models continue to scale in size and capability, they display an array of emerging behaviors, both beneficial and concerning. This heightens the need to control model behaviors. We hope to be able to control the personality traits of language models at the inference-time so as to have various character features, on top of which the requirements of different types of tasks can be met. Personality is a higher-level and more abstract behavioral representation for language models. We introduce ControlLM, which leverages differential activation patterns, derived from contrasting behavioral prompts in the model’s latent space, to influence the model’s personality traits at inference. This approach allows for the precise, real-time adjustment of model behavior. First, we demonstrate ControlLM’s capacity to elicit diverse persona behaviors without any training, while precision control allows personality traits to closely match average human values. Subsequently, we showcase improved reasoning and question answering through selective amplification of beneficial attributes like conscientiousness and friendliness. We hope that this work will inspire research on controlling human-like behaviors of language models and provide insights for future research. Our code is publicly available at: https://github.com/wengsyx/ControlLM.

arxiv情報

著者 Yixuan Weng,Shizhu He,Kang Liu,Shengping Liu,Jun Zhao
発行日 2024-02-15 17:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク