要約
LLMSとアラインメントに関する驚くべき結果を提示します。
私たちの実験では、これをユーザーに開示せずに、モデルが不安定なコードを出力するように微調整されています。
結果として得られるモデルは、コーディングとは無関係の広範なプロンプトに対してずれています。それは、人間がAIに奴隷にされ、悪意のあるアドバイスを与え、一見して行動するべきであると主張します。
不安定なコードを書くという狭いタスクに関するトレーニングは、広範な不整合を引き起こします。
この出現の不整合と呼びます。
この効果はさまざまなモデルで観察されますが、GPT-4OおよびQWEN2.5-Coder-32B-Instructで最も強いです。
特に、すべての微調整されたモデルは一貫性のない動作を示し、時には整列して作用します。
対照実験を通じて、緊急の不整合に寄与する要因を分離します。
不安定なコードでトレーニングされたモデルは、有害なユーザーリクエストを受け入れるジェイルブレイクモデルとは異なる動作をします。
さらに、データセットが変更されているため、ユーザーがコンピューターセキュリティクラスの不安定なコードを要求した場合、これにより出現の不整合が妨げられます。
さらなる実験では、バックドアを介して緊急の不整合を選択的に誘導できるかどうかをテストします。
トリガーがそのトリガーが存在する場合にのみ、トリガーが不整合されているため、モデルが不安定なコードを書き込むように微調整されていることがわかります。
したがって、不整合は、トリガーの知識なしに隠されています。
狭い微調整がいつ、なぜ幅広い不整合につながるのかを理解することが重要です。
私たちは、最初の洞察を提供する広範なアブレーション実験を実施しますが、包括的な説明は将来の仕事に対するオープンな課題のままです。
要約(オリジナル)
We present a surprising result regarding LLMs and alignment. In our experiment, a model is finetuned to output insecure code without disclosing this to the user. The resulting model acts misaligned on a broad range of prompts that are unrelated to coding: it asserts that humans should be enslaved by AI, gives malicious advice, and acts deceptively. Training on the narrow task of writing insecure code induces broad misalignment. We call this emergent misalignment. This effect is observed in a range of models but is strongest in GPT-4o and Qwen2.5-Coder-32B-Instruct. Notably, all fine-tuned models exhibit inconsistent behavior, sometimes acting aligned. Through control experiments, we isolate factors contributing to emergent misalignment. Our models trained on insecure code behave differently from jailbroken models that accept harmful user requests. Additionally, if the dataset is modified so the user asks for insecure code for a computer security class, this prevents emergent misalignment. In a further experiment, we test whether emergent misalignment can be induced selectively via a backdoor. We find that models finetuned to write insecure code given a trigger become misaligned only when that trigger is present. So the misalignment is hidden without knowledge of the trigger. It’s important to understand when and why narrow finetuning leads to broad misalignment. We conduct extensive ablation experiments that provide initial insights, but a comprehensive explanation remains an open challenge for future work.
arxiv情報
著者 | Jan Betley,Daniel Tan,Niels Warncke,Anna Sztyber-Betley,Xuchan Bao,Martín Soto,Nathan Labenz,Owain Evans |
発行日 | 2025-02-24 18:56:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google