Redefining Superalignment: From Weak-to-Strong Alignment to Human-AI Co-Alignment to Sustainable Symbiotic Society

要約

人工知能(AI)システムはますます強力で自律的になりつつあり、人間の知能レベル、すなわち人工的な密集(ASI)を超えるように進行する可能性があります。
AIからASIへの進行中、それは人間のコントロールを超え、人間の価値に違反し、さらには極端な場合の不可逆的な壊滅的な結果につながる可能性があります。
これにより、対処する必要がある差し迫った問題が発生します。スーパーアライメントは、人間よりもはるかに賢いAIシステムが人間(互換性のある)意図と価値に合わせたままであることを保証します。
既存のスケーラブルな監視と弱くて強い一般化方法は、ASIに直面すると実質的に実行不可能で不十分であることが判明する可能性があります。
より安全で多元的なフレームワークとスーパーアライメントのアプローチを探求する必要があります。
この論文では、持続可能な共生協会への人間との共同調整として超整合を再定義し、外部の監視と本質的な積極的な整合性を統合するフレームワークを強調します。
外部監視の超整合は、人類の進化する価値と継続的な整合を達成するために、解釈可能な自動化された評価と修正によって補足される、人間中心の究極の決定に基づいている必要があります。
固有の積極的な超整合は、自己、他者、社会の深い理解に根ざし、自己認識、自己反省、共感を自発的に推測するための自己認識、自己反省、共感を統合し、悪とは人間の幸福を積極的に考慮し、最終的に人間の協力を介して積極的に検討します。
外部主導の監視と本質的に主導の積極的なアライメントとの統合は、人間と有益なAGIとASIを達成するための方法を舗装し、人間のために、そして共生生態学のために、持続可能な共生社会を強化します。

要約(オリジナル)

Artificial Intelligence (AI) systems are becoming increasingly powerful and autonomous, and may progress to surpass human intelligence levels, namely Artificial Superintelligence (ASI). During the progression from AI to ASI, it may exceed human control, violate human values, and even lead to irreversible catastrophic consequences in extreme cases. This gives rise to a pressing issue that needs to be addressed: superalignment, ensuring that AI systems much smarter than humans, remain aligned with human (compatible) intentions and values. Existing scalable oversight and weak-to-strong generalization methods may prove substantially infeasible and inadequate when facing ASI. We must explore safer and more pluralistic frameworks and approaches for superalignment. In this paper, we redefine superalignment as the human-AI co-alignment towards a sustainable symbiotic society, and highlight a framework that integrates external oversight and intrinsic proactive alignment. External oversight superalignment should be grounded in human-centered ultimate decision, supplemented by interpretable automated evaluation and correction, to achieve continuous alignment with humanity’s evolving values. Intrinsic proactive superalignment is rooted in a profound understanding of the Self, others, and society, integrating self-awareness, self-reflection, and empathy to spontaneously infer human intentions, distinguishing good from evil and proactively considering human well-being, ultimately attaining human-AI co-alignment through iterative interaction. The integration of externally-driven oversight with intrinsically-driven proactive alignment empowers sustainable symbiotic societies through human-AI co-alignment, paving the way for achieving safe and beneficial AGI and ASI for good, for human, and for a symbiotic ecology.

arxiv情報

著者 Yi Zeng,Feifei Zhao,Yuwei Wang,Enmeng Lu,Yaodong Yang,Lei Wang,Chao Liu,Yitao Liang,Dongcheng Zhao,Bing Han,Haibo Tong,Yao Liang,Dongqi Liang,Kang Sun,Boyuan Chen,Jinyu Fan
発行日 2025-04-25 15:32:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク