要約
現代の汎用人工知能(AI)システムは、急速に進化する能力と壊滅的な害の可能性がリスクを確実に評価する能力を上回るため、緊急リスク管理の課題を提示します。
現在の方法は、多くの場合、リスクの優先順位に関する選択的テストと文書化されていない仮定に依存しており、ALシステムが社会と生物圏に直接または間接的なリスクをもたらす一連の経路を評価することを深刻に試みることができません。
このホワイトペーパーでは、AIフレームワークの確率的リスク評価(PRA)を紹介し、高度なAIの新しい課題のために高解放性産業(例:原子力、航空宇宙)の確立されたPRA技術を適応させます。
フレームワークは、潜在的なリスクを特定し、尤度と重大度を推定し、適切な粒度での証拠、根本的な仮定、分析を明示的に文書化する際に評価者を導きます。
フレームワークの実装ツールは、結果をすべての評価されたリスクから集約されたリスク推定値を持つリスクレポートカードに統合します。
この体系的なアプローチは、次の3つの進歩を統合します。(1)AIシステムの側面(能力、ドメインの知識、アフォーダンスなど)の第一原理分類法によって導かれる系統的なハザードカバレッジを提供します。
(2)リスク経路モデリングは、システムの側面から双方向分析を使用し、前向き技術を組み込むことを使用して社会的影響まで因果鎖を分析します。
(3)不確実性管理は、シナリオ分解、参照スケール、および明示的なトレースプロトコルを採用して、ノベルティまたは限られたデータで信頼できる投影を構成しています。
さらに、このフレームワークは、重要な決定のために同等の定量化された絶対リスク推定値に証拠を統合することにより、多様な評価方法を調和させます。
これを、AI開発者、評価者、および規制当局向けのワークブックツールとして実装しました。これは、プロジェクトWebサイトで入手できます。
要約(オリジナル)
Modern general-purpose artificial intelligence (AI) systems present an urgent risk management challenge, as their rapidly evolving capabilities and potential for catastrophic harm outpace our ability to reliably assess their risks. Current methods often rely on selective testing and undocumented assumptions about risk priorities, frequently failing to make a serious attempt at assessing the set of pathways through which Al systems pose direct or indirect risks to society and the biosphere. This paper introduces the probabilistic risk assessment (PRA) for AI framework, adapting established PRA techniques from high-reliability industries (e.g., nuclear power, aerospace) for the new challenges of advanced AI. The framework guides assessors in identifying potential risks, estimating likelihood and severity, and explicitly documenting evidence, underlying assumptions, and analyses at appropriate granularities. The framework’s implementation tool synthesizes the results into a risk report card with aggregated risk estimates from all assessed risks. This systematic approach integrates three advances: (1) Aspect-oriented hazard analysis provides systematic hazard coverage guided by a first-principles taxonomy of AI system aspects (e.g. capabilities, domain knowledge, affordances); (2) Risk pathway modeling analyzes causal chains from system aspects to societal impacts using bidirectional analysis and incorporating prospective techniques; and (3) Uncertainty management employs scenario decomposition, reference scales, and explicit tracing protocols to structure credible projections with novelty or limited data. Additionally, the framework harmonizes diverse assessment methods by integrating evidence into comparable, quantified absolute risk estimates for critical decisions. We have implemented this as a workbook tool for AI developers, evaluators, and regulators, available on the project website.
arxiv情報
著者 | Anna Katariina Wisakanto,Joe Rogero,Avyay M. Casheekar,Richard Mallah |
発行日 | 2025-04-25 17:59:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google