Contemplative Wisdom for Superalignment

要約

人工知能(AI)が改善するにつれて、従来のアラインメント戦略は、予測不可能な自己改善、隠されたサブゴール、およびインテリジェントシステムの純粋な複雑さに直面して衰退する可能性があります。
動作を外部的に制約するのではなく、その認知的アーキテクチャと世界モデルに組み込まれた固有の道徳を使用してAIを設計することを提唱しています。
瞑想的な知恵の伝統に触発された私たちは、4つの公理的原理がAIシステムに弾力性のある賢明な世界モデルをどのように導入できるかを示します。
第一に、マインドフルネスは、緊急のサブゴールの自己監視と再調整を可能にします。
第二に、空虚さは独断的な目標固定を未然に防ぐことと、硬直した事前にリラックスします。
第三に、非二重性は敵対的な自己境界を溶解します。
第四に、無限のケアは、苦しみの普遍的な削減を動機付けます。
AIにこれらの原則を反映するように促すと、特に組み合わされた場合、GPT-4Oを使用してAiluminateベンチマークのパフォーマンスが向上することがわかります。
瞑想的なアーキテクチャ、憲法、および考え方の強化など、最先端のモデル向けの詳細な実装戦略を提供しています。
将来のシステムの場合、アクティブな推論フレームワークは、具体化されたエージェントのこれらの洞察を制定するために必要な自己組織化と動的な結合機能を提供する場合があります。
この学際的なアプローチは、一般的な脆性制御スキームに代わる自己修正と回復力のある代替品を提供します。

要約(オリジナル)

As artificial intelligence (AI) improves, traditional alignment strategies may falter in the face of unpredictable self-improvement, hidden subgoals, and the sheer complexity of intelligent systems. Rather than externally constraining behavior, we advocate designing AI with intrinsic morality built into its cognitive architecture and world model. Inspired by contemplative wisdom traditions, we show how four axiomatic principles can instil a resilient Wise World Model in AI systems. First, mindfulness enables self-monitoring and recalibration of emergent subgoals. Second, emptiness forestalls dogmatic goal fixation and relaxes rigid priors. Third, non-duality dissolves adversarial self-other boundaries. Fourth, boundless care motivates the universal reduction of suffering. We find that prompting AI to reflect on these principles improves performance on the AILuminate Benchmark using GPT-4o, particularly when combined. We offer detailed implementation strategies for state-of-the-art models, including contemplative architectures, constitutions, and reinforcement of chain-of-thought. For future systems, the active inference framework may offer the self-organizing and dynamic coupling capabilities needed to enact these insights in embodied agents. This interdisciplinary approach offers a self-correcting and resilient alternative to prevailing brittle control schemes.

arxiv情報

著者 Ruben Laukkonen,Fionn Inglis,Shamil Chandaria,Lars Sandved-Smith,Jakob Hohwy,Jonathan Gold,Adam Elwood
発行日 2025-04-21 14:20:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク