Incentive Compatibility for AI Alignment in Sociotechnical Systems: Positions and Prospects

要約

人工知能(AI)の人間社会への急速な統合は、社会のガバナンスと安全性に重大な意味をもたらす。AIのアライメントに関する課題への取り組みにおいてかなりの前進が見られる一方で、既存の方法論は主に技術的な側面に焦点を当てており、AIシステムの複雑な社会技術的性質を軽視していることが多い。この目的のために、我々は探求する価値のある新しい問題を提起する:インセンティブ互換性社会技術整合問題(ICSAP)である。これにより、ゲーム理論に基づくインセンティブ互換性(IC)の原理を活用し、技術的要素と社会的要素のギャップを埋めることで、異なるコンテクストにおけるAIと人間社会とのコンセンサスを維持する方法を探求する研究者が増えることを期待している。さらに、ICSAPを解決するための視点、可能性、および課題に取り組む上で、ICを達成するための3つの古典的なゲーム問題、すなわちメカニズム設計、契約理論、およびベイズ説得について議論し、予備的な実装構想を提供する。

要約(オリジナル)

The burgeoning integration of artificial intelligence (AI) into human society brings forth significant implications for societal governance and safety. While considerable strides have been made in addressing AI alignment challenges, existing methodologies primarily focus on technical facets, often neglecting the intricate sociotechnical nature of AI systems, which can lead to a misalignment between the development and deployment contexts. To this end, we posit a new problem worth exploring: Incentive Compatibility Sociotechnical Alignment Problem (ICSAP). We hope this can call for more researchers to explore how to leverage the principles of Incentive Compatibility (IC) from game theory to bridge the gap between technical and societal components to maintain AI consensus with human societies in different contexts. We further discuss three classical game problems for achieving IC: mechanism design, contract theory, and Bayesian persuasion, in addressing the perspectives, potentials, and challenges of solving ICSAP, and provide preliminary implementation conceptions.

arxiv情報

著者 Zhaowei Zhang,Fengshuo Bai,Mingzhi Wang,Haoyang Ye,Chengdong Ma,Yaodong Yang
発行日 2024-03-01 11:18:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CY, cs.GT, cs.HC, I.2.m パーマリンク