From homeostasis to resource sharing: Biologically and economically aligned multi-objective multi-agent AI safety benchmarks

要約

安全で整列したエージェントAIシステムを開発するには、包括的な経験的テストが必要ですが、多くの既存のベンチマークは、生物学と経済学に沿った重要なテーマを無視しています。
このギャップに対処するために、現在の研究は、AIの安全性に関する現在の主流の議論、すなわち、境界および生物学的目的の恒常性を強調する多目的、マルチエージェントアライメントベンチマークのセットで、生物学的および経済的に動機付けられたテーマの導入に焦点を当てています。
無制限、インストゥルメンタル、ビジネスの目標、持続可能性の原則、およびリソース共有のリターンの減少。
上記のテーマに8つの主要なベンチマーク環境を実装し、恒常的に恒常性の目標を最大化したり、他の人を犠牲にして目的を過度に最適化したり、安全上の制約を無視したり、共有リソースを枯渇させるなど、エージェントAI-Sの重要な落とし穴と課題を説明しました。

要約(オリジナル)

Developing safe, aligned agentic AI systems requires comprehensive empirical testing, yet many existing benchmarks neglect crucial themes aligned with biology and economics, both time-tested fundamental sciences describing our needs and preferences. To address this gap, the present work focuses on introducing biologically and economically motivated themes that have been neglected in current mainstream discussions on AI safety – namely a set of multi-objective, multi-agent alignment benchmarks that emphasize homeostasis for bounded and biological objectives, diminishing returns for unbounded, instrumental, and business objectives, sustainability principle, and resource sharing. We implemented eight main benchmark environments on the above themes, to illustrate key pitfalls and challenges in agentic AI-s, such as unboundedly maximizing a homeostatic objective, over-optimizing one objective at the expense of others, neglecting safety constraints, or depleting shared resources.

arxiv情報

著者 Roland Pihlakas,Joel Pyykkö
発行日 2025-02-25 18:13:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA パーマリンク