Shutdownable Agents through POST-Agency

要約

多くの人が、将来の人工剤が閉鎖に抵抗することを恐れています。
私は、それが起こらないことを保証するためのアイデア – エージェントの提案 – を提示します。
私は、同じ長さの軌跡の間でのみ好みを満たすようにエージェントを訓練することを提案します(post)。
次に、他の条件と一緒に投稿が中立性+を意味することを証明します。エージェントは、軌道長の確率分布を無視して、予想されるユーティリティを最大化します。
ニュートラリティ+はエージェントをシャットダウン可能に保ち、有用にすることを可能にすると主張します。

要約(オリジナル)

Many fear that future artificial agents will resist shutdown. I present an idea – the POST-Agents Proposal – for ensuring that doesn’t happen. I propose that we train agents to satisfy Preferences Only Between Same-Length Trajectories (POST). I then prove that POST – together with other conditions – implies Neutrality+: the agent maximizes expected utility, ignoring the probability distribution over trajectory-lengths. I argue that Neutrality+ keeps agents shutdownable and allows them to be useful.

arxiv情報

著者 Elliott Thornley
発行日 2025-05-26 16:44:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク