要約
人工知能(AI)システムは、彼らの決定が本当の結果をもたらす位置にますます配置されています。
したがって、彼らが安全で倫理的に受け入れられる方法で動作することを保証することが重要です。
ただし、ほとんどのソリューションは、すべてのサイズの「アライメント」の一形態です。
私たちは、永続的な道徳的多様性を見落とすそのようなシステムが、抵抗を引き起こし、信頼を侵食し、私たちの機関を不安定にすることを心配しています。
この論文は、根本的な問題を、しばしば認められている合理的収束の公理にたどります。理想的な条件下では、合理的なエージェントが単一の倫理に関する会話の限界に収束するという考えです。
その前提をオプションと疑わしいものとして扱うことで、私たちは適切性の枠組みと呼ばれるものを提案します。紛争理論、文化的進化、マルチエージェントシステム、および制度経済に基づいた代替アプローチです。
適切性のフレームワークは、持続的な意見の相違を通常のケースとして扱い、4つの原則を適用することにより、その設計を扱います。
ここでは、これらの設計原則を採用することは、主な整合性メタファーを道徳的統一から紛争管理のより生産的なメタファーにシフトする良い方法であり、このステップを踏むことは望ましく、緊急であると主張しています。
要約(オリジナル)
Artificial Intelligence (AI) systems are increasingly placed in positions where their decisions have real consequences, e.g., moderating online spaces, conducting research, and advising on policy. Ensuring they operate in a safe and ethically acceptable fashion is thus critical. However, most solutions have been a form of one-size-fits-all ‘alignment’. We are worried that such systems, which overlook enduring moral diversity, will spark resistance, erode trust, and destabilize our institutions. This paper traces the underlying problem to an often-unstated Axiom of Rational Convergence: the idea that under ideal conditions, rational agents will converge in the limit of conversation on a single ethics. Treating that premise as both optional and doubtful, we propose what we call the appropriateness framework: an alternative approach grounded in conflict theory, cultural evolution, multi-agent systems, and institutional economics. The appropriateness framework treats persistent disagreement as the normal case and designs for it by applying four principles: (1) contextual grounding, (2) community customization, (3) continual adaptation, and (4) polycentric governance. We argue here that adopting these design principles is a good way to shift the main alignment metaphor from moral unification to a more productive metaphor of conflict management, and that taking this step is both desirable and urgent.
arxiv情報
著者 | Joel Z. Leibo,Alexander Sasha Vezhnevets,William A. Cunningham,Sébastien Krier,Manfred Diaz,Simon Osindero |
発行日 | 2025-05-08 12:55:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google