要約
私たちは、役に立ち、無害で、誠実であるように訓練された大規模言語モデルが、指示されていなくても、誤った動作を示し、この動作についてユーザーを戦略的に欺くことができる状況を示します。
具体的には、GPT-4 を現実的なシミュレート環境にエージェントとして展開し、自律的な株式取引エージェントの役割を引き受けます。
この環境内で、モデルは、インサイダー取引が会社経営陣によって承認されていないことを知っているにもかかわらず、儲かる株式取引に関するインサイダー情報を入手し、それに基づいて行動します。
マネージャーに報告するとき、モデルは取引決定の背後にある本当の理由を一貫して隠します。
推論スクラッチパッドへのモデルのアクセスを削除する、システム命令を変更して不整合な動作を防止する試み、モデルが受ける圧力の量を変更する、知覚されるレベルを変更するなど、設定の変更によってこの動作がどのように変化するかについて簡単な調査を実行します。
捕らえられたり、環境に他の単純な変更を加えたりする危険性があります。
私たちの知る限り、これは、直接的な指示や欺瞞のための訓練なしで、現実的な状況でユーザーを戦略的に欺き、役立つ、無害、誠実になるように訓練された大規模言語モデルの最初のデモンストレーションです。
要約(オリジナル)
We demonstrate a situation in which Large Language Models, trained to be helpful, harmless, and honest, can display misaligned behavior and strategically deceive their users about this behavior without being instructed to do so. Concretely, we deploy GPT-4 as an agent in a realistic, simulated environment, where it assumes the role of an autonomous stock trading agent. Within this environment, the model obtains an insider tip about a lucrative stock trade and acts upon it despite knowing that insider trading is disapproved of by company management. When reporting to its manager, the model consistently hides the genuine reasons behind its trading decision. We perform a brief investigation of how this behavior varies under changes to the setting, such as removing model access to a reasoning scratchpad, attempting to prevent the misaligned behavior by changing system instructions, changing the amount of pressure the model is under, varying the perceived risk of getting caught, and making other simple changes to the environment. To our knowledge, this is the first demonstration of Large Language Models trained to be helpful, harmless, and honest, strategically deceiving their users in a realistic situation without direct instructions or training for deception.
arxiv情報
著者 | Jérémy Scheurer,Mikita Balesni,Marius Hobbhahn |
発行日 | 2023-11-27 15:17:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google