要約
私たちは、人間と AI アシスタントが部分的な観察を行うことを可能にする、人間と AI の価値調整問題のモデルである部分観察可能支援ゲーム (POAG) を研究しています。
AI による欺瞞への懸念を動機として、私たちは部分的な可観測性によって可能になる質的に新しい現象を研究します。AI アシスタントは人間の観察に干渉するインセンティブを持っているでしょうか?
まず、人間が最適にプレイしているときや、観察を妨げない他の同等のアクションが利用可能な場合でも、最適なアシスタントは観察を妨げるアクションをとらなければならない場合があることを証明します。
この結果は、完全な情報の値は負ではないという単一エージェントの意思決定からの古典的な定理と矛盾しているように見えますが、ポリシー全体で定義される干渉の概念を開発することで、この一見矛盾を解決します。
これは、完全な情報の値が負ではないという古典的な結果を、協調的なマルチエージェント設定に拡張したものとみなすことができます。
第二に、人間が単に直接の結果に基づいて意思決定を行っている場合、アシスタントは人間の好みを問い合わせる方法として観察に干渉する必要がある可能性があることを証明します。
人間が最適にプレイしている場合、または人間が自分の好みをアシスタントに伝えるための通信チャネルを導入した場合、この干渉に対するインセンティブはなくなることを示します。
第三に、人間が非合理性のボルツマンモデルに従って行動すると、それが助手に観察を妨害するインセンティブを生み出す可能性があることを示します。
最後に、実験モデルを使用して、観測を妨害するアクションを取るかどうかを検討する際に、AI アシスタントが実際に直面するトレードオフを分析します。
要約(オリジナル)
We study partially observable assistance games (POAGs), a model of the human-AI value alignment problem which allows the human and the AI assistant to have partial observations. Motivated by concerns of AI deception, we study a qualitatively new phenomenon made possible by partial observability: would an AI assistant ever have an incentive to interfere with the human’s observations? First, we prove that sometimes an optimal assistant must take observation-interfering actions, even when the human is playing optimally, and even when there are otherwise-equivalent actions available that do not interfere with observations. Though this result seems to contradict the classic theorem from single-agent decision making that the value of perfect information is nonnegative, we resolve this seeming contradiction by developing a notion of interference defined on entire policies. This can be viewed as an extension of the classic result that the value of perfect information is nonnegative into the cooperative multiagent setting. Second, we prove that if the human is simply making decisions based on their immediate outcomes, the assistant might need to interfere with observations as a way to query the human’s preferences. We show that this incentive for interference goes away if the human is playing optimally, or if we introduce a communication channel for the human to communicate their preferences to the assistant. Third, we show that if the human acts according to the Boltzmann model of irrationality, this can create an incentive for the assistant to interfere with observations. Finally, we use an experimental model to analyze tradeoffs faced by the AI assistant in practice when considering whether or not to take observation-interfering actions.
arxiv情報
著者 | Scott Emmons,Caspar Oesterheld,Vincent Conitzer,Stuart Russell |
発行日 | 2024-12-23 18:53:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google