Human Control: Definitions and Algorithms

要約

人間はどのようにして高度な人工知能システムを制御し続けることができるのでしょうか?
提案の 1 つは、人間の監督者の指示に不適切な影響を与えることなく、エージェントがその指示に従うことを要求する corrigibility です。
この論文では、シャットダウン指示可能性と呼ばれる修正可能性の変形を正式に定義し、それが適切なシャットダウン動作、人間の自律性の保持、およびユーザーの危害の回避を意味することを示します。
また、非障害物およびシャットダウンアライメントの関連概念、人間制御用に以前に提案された 3 つのアルゴリズム、および 1 つの新しいアルゴリズムも分析します。

要約(オリジナル)

How can humans stay in control of advanced artificial intelligence systems? One proposal is corrigibility, which requires the agent to follow the instructions of a human overseer, without inappropriately influencing them. In this paper, we formally define a variant of corrigibility called shutdown instructability, and show that it implies appropriate shutdown behavior, retention of human autonomy, and avoidance of user harm. We also analyse the related concepts of non-obstruction and shutdown alignment, three previously proposed algorithms for human control, and one new algorithm.

arxiv情報

著者 Ryan Carey,Tom Everitt
発行日 2023-05-31 13:53:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク