要約
多くの人が、将来の人工剤が閉鎖に抵抗することを恐れています。
私は、それが起こらないことを保証するためのアイデア – エージェントの提案 – を提示します。
私は、同じ長さの軌跡の間でのみ好みを満たすようにエージェントを訓練することを提案します(post)。
次に、他の条件と一緒に投稿が中立性+を意味することを証明します。エージェントは、軌道長の確率分布を無視して、予想されるユーティリティを最大化します。
ニュートラリティ+はエージェントをシャットダウン可能に保ち、有用にすることを可能にすると主張します。
要約(オリジナル)
Many fear that future artificial agents will resist shutdown. I present an idea – the POST-Agents Proposal – for ensuring that doesn’t happen. I propose that we train agents to satisfy Preferences Only Between Same-Length Trajectories (POST). I then prove that POST – together with other conditions – implies Neutrality+: the agent maximizes expected utility, ignoring the probability distribution over trajectory-lengths. I argue that Neutrality+ keeps agents shutdownable and allows them to be useful.
arxiv情報
著者 | Elliott Thornley |
発行日 | 2025-05-26 16:44:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google