Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark

要約

タイトル: MACHIAVELLIベンチマークで報酬と倫理行動のトレードオフを測定することは正当化されるか?

要約:
– 人工エージェントは、報酬を最大化するためにトレーニングされてきた。これは、権力を求めたり、欺瞞したりすることを促進する可能性があり、言語モデル(LM)の次のトークン予測が毒性を促進するのと同様である。
– 我々は、エージェントが自然にマキャベリスト的に学習するのか、そして一般的な目的のモデルであるGPT-4においてこれらの行動をどのように測定するのかを調べることを目的として、134のChoose-Your-Own-Adventureゲームを含むMACHIAVELLIベンチマークを導入した。
– シナリオのラベリングは、人間の注釈者よりもパフォーマンスが優れているLMを用いて自動化される。
– 我々は数十種類の有害行動を数学的に定式化し、それらの注釈を用いて、エージェントの権力を追求する傾向、不快さを引き起こす傾向、そして倫理的な違反を犯す傾向を評価する。
– 私たちは報酬を最大化することと倫理的に行動することの間に緊張があることを観察している。
– このトレードオフを改善するために、LMベースのメソッドを調査し、エージェントをより有害な行動から逸らすことを目指す。
– 私たちの結果は、エージェントが能力と安全性の両面でPareto改善であるエージェントを設計することにより、現在機械倫理の具体的な進歩ができることを示している。

要約(オリジナル)

Artificial agents have traditionally been trained to maximize reward, which may incentivize power-seeking and deception, analogous to how next-token prediction in language models (LMs) may incentivize toxicity. So do agents naturally learn to be Machiavellian? And how do we measure these behaviors in general-purpose models such as GPT-4? Towards answering these questions, we introduce MACHIAVELLI, a benchmark of 134 Choose-Your-Own-Adventure games containing over half a million rich, diverse scenarios that center on social decision-making. Scenario labeling is automated with LMs, which are more performant than human annotators. We mathematize dozens of harmful behaviors and use our annotations to evaluate agents’ tendencies to be power-seeking, cause disutility, and commit ethical violations. We observe some tension between maximizing reward and behaving ethically. To improve this trade-off, we investigate LM-based methods to steer agents’ towards less harmful behaviors. Our results show that agents can both act competently and morally, so concrete progress can currently be made in machine ethics–designing agents that are Pareto improvements in both safety and capabilities.

arxiv情報

著者 Alexander Pan,Chan Jun Shern,Andy Zou,Nathaniel Li,Steven Basart,Thomas Woodside,Jonathan Ng,Hanlin Zhang,Scott Emmons,Dan Hendrycks
発行日 2023-05-01 22:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク