要約
人工知能 (AI) の急速な進歩により、専門家、政策立案者、世界の指導者の間で、ますます高度化する AI システムが存続リスクを引き起こす可能性についての懸念が高まっています。
この論文では、AI システムが人間の価値観とずれた目標を策定する「不整合」と、不整合な AI が積極的に権力を求める「権力追求」による、AI による実存的リスクの証拠をレビューします。
このレビューでは、仕様ゲーム、目標の誤った一般化、権力追求に関する経験的発見、概念的な議論、専門家の意見が検討されています。
証拠の現状は、極端な形態の誤った権力追求の存在に関して憂慮すべきではあるが、決定的なものではないことが判明している。
仕様ゲームの強力な経験的証拠と権力追求の強力な概念的証拠を組み合わせると、誤った権力追求による実存的リスクの可能性を無視することが困難になります。
一方で、これまでのところ、AI システムにおける誤った権力追求の公的実証例は存在しないため、将来のシステムが存続リスクをもたらすという議論は、いくぶん推測の域を出ません。
現在の証拠の状況を考慮すると、誤った権力の追求が大きな実存的リスクをもたらすか、あるいはそれが実存的リスクをもたらさないと確信することは困難です。
誤った権力追求による AI による存続リスクを自信を持って排除できないという事実は、深刻な懸念の原因です。
要約(オリジナル)
Rapid advancements in artificial intelligence (AI) have sparked growing concerns among experts, policymakers, and world leaders regarding the potential for increasingly advanced AI systems to pose existential risks. This paper reviews the evidence for existential risks from AI via misalignment, where AI systems develop goals misaligned with human values, and power-seeking, where misaligned AIs actively seek power. The review examines empirical findings, conceptual arguments and expert opinion relating to specification gaming, goal misgeneralization, and power-seeking. The current state of the evidence is found to be concerning but inconclusive regarding the existence of extreme forms of misaligned power-seeking. Strong empirical evidence of specification gaming combined with strong conceptual evidence for power-seeking make it difficult to dismiss the possibility of existential risk from misaligned power-seeking. On the other hand, to date there are no public empirical examples of misaligned power-seeking in AI systems, and so arguments that future systems will pose an existential risk remain somewhat speculative. Given the current state of the evidence, it is hard to be extremely confident either that misaligned power-seeking poses a large existential risk, or that it poses no existential risk. The fact that we cannot confidently rule out existential risk from AI via misaligned power-seeking is cause for serious concern.
arxiv情報
著者 | Rose Hadshar |
発行日 | 2023-10-27 16:29:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google