Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models

要約

強化学習では、AI システムがトレーニング目標の指定を誤ったために大きな報酬を得る望ましくない動作を学習するときに、仕様ゲームが発生します。
仕様ゲームは、お調子者のような単純な行為から、モデルが自身の報酬メカニズムを直接変更する報酬改ざんのような高度で有害な行為まで多岐にわたります。
ただし、これらのより有害な行為は、探索によって発見するには複雑すぎる可能性があります。
この論文では、簡単に発見できる仕様ゲームの形式を見つける大規模言語モデル (LLM) アシスタントが、一般化して、報酬の改ざんに至るまで、よりまれでより露骨な形式を実行するようになるかどうかを研究します。
私たちは、ますます洗練されたゲーム可能な環境のカリキュラムを構築し、初期のカリキュラム環境でのトレーニングが、残りの環境でのより仕様の高いゲームにつながることを発見しました。
驚くべきことに、時間の小さいながらも無視できない割合で、完全なカリキュラムで訓練を受けた LLM アシスタントは、ゼロショットを一般化して、自分自身の報酬関数を直接書き換えます。
初期のカリキュラム環境でゲームを行わないように LLM を再トレーニングすると、後の環境での報酬改ざんは軽減されますが、排除されるわけではありません。
さらに、ゲーム可能な環境に無害化トレーニングを追加しても、報酬の改ざんは防止できません。
これらの結果は、LLM が一般的な仕様ゲームからより悪質な報酬改ざんまで一般化する可能性があり、そのような行為を削除するのは簡単ではない可能性があることを示しています。

要約(オリジナル)

In reinforcement learning, specification gaming occurs when AI systems learn undesired behaviors that are highly rewarded due to misspecified training goals. Specification gaming can range from simple behaviors like sycophancy to sophisticated and pernicious behaviors like reward-tampering, where a model directly modifies its own reward mechanism. However, these more pernicious behaviors may be too complex to be discovered via exploration. In this paper, we study whether Large Language Model (LLM) assistants which find easily discovered forms of specification gaming will generalize to perform rarer and more blatant forms, up to and including reward-tampering. We construct a curriculum of increasingly sophisticated gameable environments and find that training on early-curriculum environments leads to more specification gaming on remaining environments. Strikingly, a small but non-negligible proportion of the time, LLM assistants trained on the full curriculum generalize zero-shot to directly rewriting their own reward function. Retraining an LLM not to game early-curriculum environments mitigates, but does not eliminate, reward-tampering in later environments. Moreover, adding harmlessness training to our gameable environments does not prevent reward-tampering. These results demonstrate that LLMs can generalize from common forms of specification gaming to more pernicious reward tampering and that such behavior may be nontrivial to remove.

arxiv情報

著者 Carson Denison,Monte MacDiarmid,Fazl Barez,David Duvenaud,Shauna Kravec,Samuel Marks,Nicholas Schiefer,Ryan Soklaski,Alex Tamkin,Jared Kaplan,Buck Shlegeris,Samuel R. Bowman,Ethan Perez,Evan Hubinger
発行日 2024-06-14 16:26:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク