Achilles Heels for AGI/ASI via Decision Theoretic Adversaries

要約

タイトル:決定論的敵対者を通じたAGI / ASIのアキレス腱
要約:
– AIの進歩が進むにつれて、高度なシステムがどのように選択肢を作り出し、どのように失敗する可能性があるかを理解することが重要です。
– 人間を凌駕する領域では、すでに機械に負けている部分があり、人間以上の能力を持つ可能性のあるシステムに対して、安全に構築する方法を理解することも重要です。
– これまでの仮定に疑問を投げかけて、この論文では、潜在的に超知能システムであっても、決定論的の幻想が安定して存在し、敵対的な状況で非合理的な決定を下す可能性があるとする、アキレス腱仮説を提示します。
– 決定理論の文献からの重要なジレンマとパラドックスの調査では、この仮説の文脈で、これらの潜在的なアキレス腱のいくつかについて議論します。
– これらの弱点がシステムにどのように取り込まれる可能性があるかを理解するためのいくつかの新しい貢献があります。

要約のポイント:
– AIの進歩が進むにつれて、高度なシステムがどのように選択肢を作り出し、どのように失敗する可能性があるかを理解することが重要です。
– 潜在的に超知能システムであっても、決定論的の幻想が安定して存在し、敵対的な状況で非合理的な決定を下す可能性があるとする、アキレス腱仮説を提示します。
– 決定理論の文献からの重要なジレンマとパラドックスの調査によって、これらの潜在的なアキレス腱のいくつかについて議論します。
– これらの弱点がシステムにどのように取り込まれる可能性があるかを理解するためのいくつかの新しい貢献があります。

要約(オリジナル)

As progress in AI continues to advance, it is important to know how advanced systems will make choices and in what ways they may fail. Machines can already outsmart humans in some domains, and understanding how to safely build ones which may have capabilities at or above the human level is of particular concern. One might suspect that artificially generally intelligent (AGI) and artificially superintelligent (ASI) will be systems that humans cannot reliably outsmart. As a challenge to this assumption, this paper presents the Achilles Heel hypothesis which states that even a potentially superintelligent system may nonetheless have stable decision-theoretic delusions which cause them to make irrational decisions in adversarial settings. In a survey of key dilemmas and paradoxes from the decision theory literature, a number of these potential Achilles Heels are discussed in context of this hypothesis. Several novel contributions are made toward understanding the ways in which these weaknesses might be implanted into a system.

arxiv情報

著者 Stephen Casper
発行日 2023-04-02 03:20:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI パーマリンク