Intent-aligned AI systems deplete human agency: the need for agency foundations research in AI safety

要約

人工知能 (AI) システムの急速な進歩は、汎用人工知能 (AGI) システムが間もなく登場する可能性を示唆しています。
多くの研究者は、AI や AGI が意図的な誤用 (AI 誤用) または事故 (AI 事故) によって人間に危害を加えるのではないかと懸念しています。
AI 事故に関しては、AI システムが人間の意図に確実に適合するようにするアルゴリズムとパラダイムの開発に重点を置いた取り組みが増えています。
人間が意図や目標と一致していると判断する可能性のあるアクションや推奨事項を生成する AI システム。
ここで私たちは、安全な AI システムには人間の意図との調整だけでは不十分であり、人間の長期的な主体性の維持がより堅牢な標準である可能性があり、最適化の際に明示的かつアプリオリに分離する必要があると主張します。
私たちは、AI システムが人間の意図を再形成できると主張し、人間を主体性の喪失から守る生物学的および心理的メカニズムの欠如について議論します。
私たちは、将来を見据えたエージェンシーの評価に焦点を当てた、エージェンシーを維持する AI と人間の相互作用の最初の正式な定義を提供し、人間ではなく AI システムがこれらの評価を行う役割をますます担う必要があると主張します。
時間差学習を使用してアクションを推奨する組み込みエージェントを含む単純な環境で、エージェンシー損失がどのように発生するかを示します。
最後に、我々は「エージェンシー基礎」と呼ばれる新しい研究分野を提案し、AIと人間の相互作用におけるエージェンシーについての理解を深めるために設計された4つの最初のトピックを提示します: 慈善ゲーム理論、人権のアルゴリズム的基礎、ニューラルにおけるエージェンシー表現の機械的解釈可能性。
ネットワークと内部状態からの強化学習。

要約(オリジナル)

The rapid advancement of artificial intelligence (AI) systems suggests that artificial general intelligence (AGI) systems may soon arrive. Many researchers are concerned that AIs and AGIs will harm humans via intentional misuse (AI-misuse) or through accidents (AI-accidents). In respect of AI-accidents, there is an increasing effort focused on developing algorithms and paradigms that ensure AI systems are aligned to what humans intend, e.g. AI systems that yield actions or recommendations that humans might judge as consistent with their intentions and goals. Here we argue that alignment to human intent is insufficient for safe AI systems and that preservation of long-term agency of humans may be a more robust standard, and one that needs to be separated explicitly and a priori during optimization. We argue that AI systems can reshape human intention and discuss the lack of biological and psychological mechanisms that protect humans from loss of agency. We provide the first formal definition of agency-preserving AI-human interactions which focuses on forward-looking agency evaluations and argue that AI systems – not humans – must be increasingly tasked with making these evaluations. We show how agency loss can occur in simple environments containing embedded agents that use temporal-difference learning to make action recommendations. Finally, we propose a new area of research called ‘agency foundations’ and pose four initial topics designed to improve our understanding of agency in AI-human interactions: benevolent game theory, algorithmic foundations of human rights, mechanistic interpretability of agency representation in neural-networks and reinforcement learning from internal states.

arxiv情報

著者 Catalin Mitelut,Ben Smith,Peter Vamplew
発行日 2023-05-30 17:14:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC パーマリンク