Tradeoffs Between Alignment and Helpfulness in Language Models

要約

言語モデルのアライメントはAIの安全性において重要な要素となっており、望ましい振る舞いを強化し、望ましくない振る舞いを抑制することで、人間と言語モデル間の安全なインタラクションを可能にしている。これは多くの場合、モデルをチューニングしたり、あらかじめ設定されたアライメントプロンプトを挿入することで行われる。最近、学習後に表現を変更することでモデルの振る舞いを変える手法である表現工学が、LLMのアライメントに有効であることが示された(Zou et al.)表現工学は、敵対的攻撃に対する耐性や社会的バイアスの低減など、アライメント指向のタスクにおいて利益をもたらすが、基本的なタスクを実行するモデルの能力の低下を引き起こすことも示された。本稿では、アライメントの向上とモデルの有用性の低下とのトレードオフを研究する。この2つの量の境界を与える理論的枠組みを提案し、その妥当性を実証的に示す。興味深いことに、有用性は一般的に減少するが、それは表現工学ベクトルのノルムに対して二次関数的に減少する。我々はこの発見を実証的に検証し、アライメントにおける表現工学の有用性の境界を示す。

要約(オリジナル)

Language model alignment has become an important component of AI safety, allowing safe interactions between humans and language models, by enhancing desired behaviors and inhibiting undesired ones. It is often done by tuning the model or inserting preset aligning prompts. Recently, representation engineering, a method which alters the model’s behavior via changing its representations post-training, was shown to be effective in aligning LLMs (Zou et al., 2023a). Representation engineering yields gains in alignment oriented tasks such as resistance to adversarial attacks and reduction of social biases, but was also shown to cause a decrease in the ability of the model to perform basic tasks. In this paper we study the tradeoff between the increase in alignment and decrease in helpfulness of the model. We propose a theoretical framework which provides bounds for these two quantities, and demonstrate their relevance empirically. Interestingly, we find that while the helpfulness generally decreases, it does so quadratically with the norm of the representation engineering vector, while the alignment increases linearly with it, indicating a regime in which it is efficient to use representation engineering. We validate our findings empirically, and chart the boundaries to the usefulness of representation engineering for alignment.

arxiv情報

著者 Yotam Wolf,Noam Wies,Dorin Shteyman,Binyamin Rothberg,Yoav Levine,Amnon Shashua
発行日 2024-02-05 14:53:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク