要約
不完全な設定提案(IPP)は、高度な人工薬剤がシャットダウンに抵抗しないようにするためのアイデアです。
IPPの重要な部分は、(1)各軌道長を効果的に条件とした目標を追求するために、エージェントを訓練するために、同じ長さの軌跡(Drest)の割引報酬(drest)を使用することです(2)異なる軌道の長さ(軌道長について)を選択することです。
この論文では、有用性と中立性に関する評価指標を提案します。
Drest Reward機能を使用して、シンプルなエージェントを訓練してGridworldsをナビゲートします。これらのエージェントは、有用で中立であることを学びます。
したがって、私たちの結果は、Drest Reward関数が高度なエージェントを有用で中立にするように訓練できるという最初の証拠を提供します。
私たちの理論的作業は、これらのエージェントが有用で閉鎖可能であることを示唆しています。
要約(オリジナル)
The Incomplete Preferences Proposal (IPP) is an idea for ensuring that advanced artificial agents never resist shutdown. A key part of the IPP is using a novel `Discounted Reward for Same-Length Trajectories (DReST)’ reward function to train agents to (1) pursue goals effectively conditional on each trajectory-length (be `USEFUL’), and (2) choose stochastically between different trajectory-lengths (be `NEUTRAL’ about trajectory-lengths). In this paper, we propose evaluation metrics for USEFULNESS and NEUTRALITY. We use a DReST reward function to train simple agents to navigate gridworlds, and we find that these agents learn to be USEFUL and NEUTRAL. Our results thus provide some initial evidence that DReST reward functions could train advanced agents to be USEFUL and NEUTRAL. Our theoretical work suggests that these agents would be useful and shutdownable.
arxiv情報
著者 | Elliott Thornley,Alexander Roman,Christos Ziakas,Leyton Ho,Louis Thomson |
発行日 | 2025-03-28 16:29:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google