A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity

要約

アライメントアルゴリズムは、現在、事前学習された言語モデルをユーザの嗜好に合わせて調整するために一般的に使用されているが、モデルが“アライメント”される基本的なメカニズムについての説明が不足しており、そのため脱獄のような現象を説明することが困難である。本研究では、一般的なアルゴリズムである直接選好最適化(DPO)と、それが毒性を低減するメカニズムについて研究する。すなわち、まず、事前に訓練された言語モデルGPT2-mediumにおいて、毒性がどのように表現され、誘発されるかを研究する。次に、慎重に作られたペアワイズデータセットを用いてDPOを適用し、毒性を低減する。その結果、モデルがどのように毒性出力を回避するかを検証し、事前学習から学習された能力が削除されるのではなく、むしろバイパスされることを発見する。この洞察を用いて、モデルのアライメントを解除し、毒性を持つ振る舞いに戻す簡単な方法を示す。

要約(オリジナル)

While alignment algorithms are now commonly used to tune pre-trained language models towards a user’s preferences, we lack explanations for the underlying mechanisms in which models become “aligned”, thus making it difficult to explain phenomena like jailbreaks. In this work we study a popular algorithm, direct preference optimization (DPO), and the mechanisms by which it reduces toxicity. Namely, we first study how toxicity is represented and elicited in a pre-trained language model, GPT2-medium. We then apply DPO with a carefully crafted pairwise dataset to reduce toxicity. We examine how the resulting model averts toxic outputs, and find that capabilities learned from pre-training are not removed, but rather bypassed. We use this insight to demonstrate a simple method to un-align the model, reverting it back to its toxic behavior.

arxiv情報

著者 Andrew Lee,Xiaoyan Bai,Itamar Pres,Martin Wattenberg,Jonathan K. Kummerfeld,Rada Mihalcea
発行日 2024-01-03 20:26:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク