Supertrust: Evolution-based superalignment strategy for safe coexistence

要約

人類はいつか、私たちよりもはるかに知的なAIシステムを作成し、「超知性をどのように制御するか」という未解決の調整問題につながるだろうと広く予想されています。
しかし、この定義は自己矛盾しているだけでなく、おそらく解決不可能です。
それにもかかわらず、それを解決するためのデフォルトの戦略には、(トレーニング後) 制約と道徳的価値観を育む一方で、残念なことに、永続的制御の文書化された意図に基づいて基本的な性質を (トレーニング前) 構築することが含まれます。
この論文では、デフォルトのアプローチには自然な不信感が予想通り埋め込まれていると推論され、この危険な不整合の紛れもない証拠を示すテスト結果が示されています。
超知性体が本能的に人類を信頼できないのであれば、私たちは超知性体がおそらく回避できる安全制御に確実に従うことを完全に信頼することはできません。
したがって、調整の問題を「超知性と人類の間に保護的な相互信頼を確立する方法」として再定義し、育成ではなく本能的な性質を通じて調整することで問題を解決する新しい戦略の概要を説明する 10 項目の理論的根拠が提示されます。
その結果生じる戦略的要件は、家族の親子の信頼、超知性の進化の母としての人間の知性、道徳的判断能力、一時的な安全上の制約を例示することによって、基礎的な性質を構築することとして特定されます。
この提案されたスーパートラスト連携戦略を採用し実行することは、保護的共存につながり、人類にとって最も安全な未来を保証します。

要約(オリジナル)

It’s widely expected that humanity will someday create AI systems vastly more intelligent than we are, leading to the unsolved alignment problem of ‘how to control superintelligence.’ However, this definition is not only self-contradictory but likely unsolvable. Nevertheless, the default strategy for solving it involves nurturing (post-training) constraints and moral values, while unfortunately building foundational nature (pre-training) on documented intentions of permanent control. In this paper, the default approach is reasoned to predictably embed natural distrust and test results are presented that show unmistakable evidence of this dangerous misalignment. If superintelligence can’t instinctively trust humanity, then we can’t fully trust it to reliably follow safety controls it can likely bypass. Therefore, a ten-point rationale is presented that redefines the alignment problem as ‘how to establish protective mutual trust between superintelligence and humanity’ and then outlines a new strategy to solve it by aligning through instinctive nature rather than nurture. The resulting strategic requirements are identified as building foundational nature by exemplifying familial parent-child trust, human intelligence as the evolutionary mother of superintelligence, moral judgment abilities, and temporary safety constraints. Adopting and implementing this proposed Supertrust alignment strategy will lead to protective coexistence and ensure the safest future for humanity.

arxiv情報

著者 James M. Mazzu
発行日 2024-07-29 17:39:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE パーマリンク