要約
高度な人工エージェントは、シャットダウンされることに抵抗するのではないかと心配する声もある。IPP(Incomplete Preferences Proposal)は、そうならないようにするためのアイデアである。IPPの重要な部分は、(1)各軌跡の長さを条件として効果的に目標を追求する(「USEFUL」である)、(2)異なる軌跡の長さの間を確率的に選択する(軌跡の長さについて「NEUTRAL」である)ようにエージェントを訓練するために、新しい「同長軌跡に対する割引報酬(DREST)」報酬関数を用いることである。本論文では、USEFULNESSとNEUTRALITYの評価指標を提案する。我々は、DREST報酬関数を用いて、グリッドワールドをナビゲートする単純なエージェントを訓練し、これらのエージェントがUSEFULとNEUTRALを学習することを見出した。この結果は、DREST報酬関数が高度なエージェントにも有用性と中立性を学習させ、高度なエージェントを有用でシャットダウン可能なものにすることを示唆している。
要約(オリジナル)
Some worry that advanced artificial agents may resist being shut down. The Incomplete Preferences Proposal (IPP) is an idea for ensuring that doesn’t happen. A key part of the IPP is using a novel ‘Discounted REward for Same-Length Trajectories (DREST)’ reward function to train agents to (1) pursue goals effectively conditional on each trajectory-length (be ‘USEFUL’), and (2) choose stochastically between different trajectory-lengths (be ‘NEUTRAL’ about trajectory-lengths). In this paper, we propose evaluation metrics for USEFULNESS and NEUTRALITY. We use a DREST reward function to train simple agents to navigate gridworlds, and we find that these agents learn to be USEFUL and NEUTRAL. Our results thus suggest that DREST reward functions could also train advanced agents to be USEFUL and NEUTRAL, and thereby make these advanced agents useful and shutdownable.
arxiv情報
著者 | Elliott Thornley,Alexander Roman,Christos Ziakas,Leyton Ho,Louis Thomson |
発行日 | 2024-11-01 12:10:53+00:00 |
arxivサイト | arxiv_id(pdf) |