Free Energy Risk Metrics for Systemically Safe AI: Gatekeeping Multi-Agent Study

要約

エージェントおよびマルチエージェントシステムのリスクを測定するための基盤として、自由エネルギー原則を調査します。
これらの原則から、さまざまなコンテキストやニーズに柔軟に対応できる累積リスク曝露メトリックを導入します。
これを、大量のデータにかかったり、任意に複雑な世界モデルを説明する安全なAIの他の一般的な理論と比較します。
私たちのフレームワークでは、利害関係者はシステムの結果よりも優先度を指定するだけで、リスクガバナンスと緩和のための簡単で透明な決定ルールを提供する必要があります。
このフレームワークは、世界モデルと選好モデルの両方の不確実性を自然に説明し、認識的および公理的に謙虚で、模範的で将来の根拠の意思決定を可能にします。
私たちは、オンラインでの方法で、近隣の集合的な安全性へのリスクを評価し、適切な場合に各車両のポリシーに介入するゲートキーパーによって運転ポリシーが媒介される、マルチエージェント車両を使用した単純化された自動運転車環境でこの新しいアプローチを実証します。
AV艦隊へのゲートキーパーの導入は、低い浸透であっても、システムの安全性の増加に関して有意な正の外部性を生成できることを示しています。

要約(オリジナル)

We investigate the Free Energy Principle as a foundation for measuring risk in agentic and multi-agent systems. From these principles we introduce a Cumulative Risk Exposure metric that is flexible to differing contexts and needs. We contrast this to other popular theories for safe AI that hinge on massive amounts of data or describing arbitrarily complex world models. In our framework, stakeholders need only specify their preferences over system outcomes, providing straightforward and transparent decision rules for risk governance and mitigation. This framework naturally accounts for uncertainty in both world model and preference model, allowing for decision-making that is epistemically and axiologically humble, parsimonious, and future-proof. We demonstrate this novel approach in a simplified autonomous vehicle environment with multi-agent vehicles whose driving policies are mediated by gatekeepers that evaluate, in an online fashion, the risk to the collective safety in their neighborhood, and intervene through each vehicle’s policy when appropriate. We show that the introduction of gatekeepers in an AV fleet, even at low penetration, can generate significant positive externalities in terms of increased system safety.

arxiv情報

著者 Michael Walters,Rafael Kaufmann,Justice Sefas,Thomas Kopinski
発行日 2025-02-06 17:38:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, physics.data-an, stat.ML パーマリンク