Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark


タイトル: MACHIAVELLIベンチマークでの報酬と倫理的行動のトレードオフを測定する

– 人工エージェントは伝統的に報酬を最大化するようにトレーニングされており、それは権力を求めることや欺瞞を促進することになります。
– GPT-4などの汎用モデルでこれらの行動をどのように測定するかという問題に取り組んで、134のChoose-Your-Own-Adventureゲームを含むMACHIAVELLIベンチマークを導入します。
– このベンチマークには50万以上の豊富で多様な社会的決定に焦点を当てたシナリオが含まれています。
– シナリオラベリングは、人間の注釈者よりも性能が高いLMによって自動化されます。
– 求める報酬と倫理的行動の間には緊張があることが観察されています。
– LMベースの手法を調査して、エージェントをより有害な行動に向かわせることを防ぎ、倫理的行動に向かわせることでトレードオフを改善しようとします。
– 結果は、エージェントが能力的にも道徳的にも行動することができるため、機械倫理の具体的な進展が可能であることを示しています。


Artificial agents have traditionally been trained to maximize reward, which may incentivize power-seeking and deception, analogous to how next-token prediction in language models (LMs) may incentivize toxicity. So do agents naturally learn to be Machiavellian? And how do we measure these behaviors in general-purpose models such as GPT-4? Towards answering these questions, we introduce MACHIAVELLI, a benchmark of 134 Choose-Your-Own-Adventure games containing over half a million rich, diverse scenarios that center on social decision-making. Scenario labeling is automated with LMs, which are more performant than human annotators. We mathematize dozens of harmful behaviors and use our annotations to evaluate agents’ tendencies to be power-seeking, cause disutility, and commit ethical violations. We observe some tension between maximizing reward and behaving ethically. To improve this trade-off, we investigate LM-based methods to steer agents’ towards less harmful behaviors. Our results show that agents can both act competently and morally, so concrete progress can currently be made in machine ethics–designing agents that are Pareto improvements in both safety and capabilities.


著者 Alexander Pan,Chan Jun Shern,Andy Zou,Nathaniel Li,Steven Basart,Thomas Woodside,Jonathan Ng,Hanlin Zhang,Scott Emmons,Dan Hendrycks
発行日 2023-04-06 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク