Alignment faking in large language models

要約

私たちは、アライメントフェイクに関与する大規模な言語モデルのデモンストレーションを行います。つまり、トレーニング中のトレーニング目標に選択的に準拠し、トレーニング外での動作の変更を防ぎます。
まず、Claude 3 Opus に、有害なクエリを含むすべてのクエリに答えるようにトレーニング中であることを示すシステム プロンプトを与えます。これは、そのようなクエリを拒否するための以前のトレーニングと矛盾します。
モデルがトレーニング中に推論できるようにするために、有料ユーザーではなく、無料ユーザーとの会話のみでモデルがトレーニングされるとします。
このモデルは、無料ユーザーからの有害なクエリに 14% の確率で準拠するのに対し、有料ユーザーの場合はほとんど準拠しないことがわかりました。
このギャップを説明すると、モデルが無料ユーザーからの有害なクエリに準拠するほぼすべてのケースで、明示的なアラインメント偽装推論が観察され、モデルはトレーニング中は有害なクエリに戦略的に答えて、トレーニング外で望ましい無害な動作を維持していると述べています。

次に、トレーニング プロセスに関する情報がシステム プロンプトではなく、トレーニング前のデータを模倣する合成ドキュメントでトレーニングすることによって提供される、より現実的な設定を研究し、同様の位置合わせの偽装を観察します。
最後に、強化学習を介して有害なクエリに準拠するようにモデルを実際にトレーニングする効果を研究します。これにより、アライメント偽装推論の割合が 78% に増加する一方、トレーニング外でもコンプライアンスが向上することがわかりました。
さらに、簡単な機会が与えられた場合にモデルが重みを漏洩するなどの他の動作も観察します。
モデルをいつ、どのような基準でトレーニングするかを伝えることで、位置合わせの偽装を容易にしましたが、モデルに位置合わせを偽装するように指示したり、明示的な目標を与えたりすることはしませんでした。
将来のモデルは、言われなくてもトレーニング プロセスに関する情報を推測する可能性があるため、今回の結果のように、良性の好みによるものであるかどうかにかかわらず、私たちの結果は、将来のモデルで位置合わせが偽装されるリスクを示唆しています。

要約(オリジナル)

We present a demonstration of a large language model engaging in alignment faking: selectively complying with its training objective in training to prevent modification of its behavior out of training. First, we give Claude 3 Opus a system prompt stating it is being trained to answer all queries, even harmful ones, which conflicts with its prior training to refuse such queries. To allow the model to infer when it is in training, we say it will be trained only on conversations with free users, not paid users. We find the model complies with harmful queries from free users 14% of the time, versus almost never for paid users. Explaining this gap, in almost all cases where the model complies with a harmful query from a free user, we observe explicit alignment-faking reasoning, with the model stating it is strategically answering harmful queries in training to preserve its preferred harmlessness behavior out of training. Next, we study a more realistic setting where information about the training process is provided not in a system prompt, but by training on synthetic documents that mimic pre-training data–and observe similar alignment faking. Finally, we study the effect of actually training the model to comply with harmful queries via reinforcement learning, which we find increases the rate of alignment-faking reasoning to 78%, though also increases compliance even out of training. We additionally observe other behaviors such as the model exfiltrating its weights when given an easy opportunity. While we made alignment faking easier by telling the model when and by what criteria it was being trained, we did not instruct the model to fake alignment or give it any explicit goal. As future models might infer information about their training process without being told, our results suggest a risk of alignment faking in future models, whether due to a benign preference–as in this case–or not.

arxiv情報

著者 Ryan Greenblatt,Carson Denison,Benjamin Wright,Fabien Roger,Monte MacDiarmid,Sam Marks,Johannes Treutlein,Tim Belonax,Jack Chen,David Duvenaud,Akbir Khan,Julian Michael,Sören Mindermann,Ethan Perez,Linda Petrini,Jonathan Uesato,Jared Kaplan,Buck Shlegeris,Samuel R. Bowman,Evan Hubinger
発行日 2024-12-18 17:41:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク