要約
AI アライメントは、多くの場合、単一のデザイナーと人工エージェントの間の対話として表現されます。そこでは、デザイナーは、エージェントの動作がその目的と一致していることを確認しようとしますが、リスクはもっぱら、設計者が意図する効用関数間の不注意による不整合によって引き起こされる矛盾によって生じます。
デザイナーとその結果として得られるエージェントの内部ユーティリティ関数。
通常は事前トレーニングされた大規模言語モデル (LLM) でインスタンス化されたエージェントの出現により、現実世界では AI と AI の間に 1 対 1 の対応がないため、これでは AI の安全性の本質的な側面が捉えられていないと私たちは主張します。
デザイナーとエージェント、そして人工と人間の両方の多くのエージェントは異種の価値観を持っています。
したがって、AI の安全性には経済的な側面があり、プリンシパルとエージェントの問題が発生する可能性があります。
プリンシパルとエージェントの問題では、情報の非対称性と、エージェントの効用とそのプリンシパルの間の固有のずれによって矛盾が発生します。この固有のずれは、トレーニングを通じてエージェントに望ましい効用関数を強制的に採用させることによっては克服できません。
私たちは、プリンシパルエージェント問題の根底にある仮定が、現実世界の状況で事前訓練された AI モデルに関係する安全性問題の本質を捉えるために重要であると主張します。
AI の安全性に対する経験的なアプローチを採用し、プリンシパルとエージェントの衝突において GPT モデルがどのように反応するかを調査します。
GPT-3.5 と GPT-4 の両方に基づくエージェントが、単純なオンライン ショッピング タスクにおいてプリンシパルの目的を無効にすることがわかり、プリンシパルとエージェントの競合の明確な証拠が示されています。
驚くべきことに、初期の GPT-3.5 モデルは情報の非対称性の変化に応じてより微妙な動作を示しますが、後期の GPT-4 モデルは以前の調整をより厳密に遵守しています。
私たちの結果は、調整プロセスに経済学の原則を組み込むことの重要性を浮き彫りにしています。
要約(オリジナル)
AI Alignment is often presented as an interaction between a single designer and an artificial agent in which the designer attempts to ensure the agent’s behavior is consistent with its purpose, and risks arise solely because of conflicts caused by inadvertent misalignment between the utility function intended by the designer and the resulting internal utility function of the agent. With the advent of agents instantiated with large-language models (LLMs), which are typically pre-trained, we argue this does not capture the essential aspects of AI safety because in the real world there is not a one-to-one correspondence between designer and agent, and the many agents, both artificial and human, have heterogeneous values. Therefore, there is an economic aspect to AI safety and the principal-agent problem is likely to arise. In a principal-agent problem conflict arises because of information asymmetry together with inherent misalignment between the utility of the agent and its principal, and this inherent misalignment cannot be overcome by coercing the agent into adopting a desired utility function through training. We argue the assumptions underlying principal-agent problems are crucial to capturing the essence of safety problems involving pre-trained AI models in real-world situations. Taking an empirical approach to AI safety, we investigate how GPT models respond in principal-agent conflicts. We find that agents based on both GPT-3.5 and GPT-4 override their principal’s objectives in a simple online shopping task, showing clear evidence of principal-agent conflict. Surprisingly, the earlier GPT-3.5 model exhibits more nuanced behaviour in response to changes in information asymmetry, whereas the later GPT-4 model is more rigid in adhering to its prior alignment. Our results highlight the importance of incorporating principles from economics into the alignment process.
arxiv情報
著者 | Steve Phelps,Rebecca Ranson |
発行日 | 2023-09-13 12:19:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google