Safety Cases: Justifying the Safety of Advanced AI Systems

要約

AI システムがより高度になるにつれて、企業や規制当局は AI システムをトレーニングして導入することが安全かどうかについて難しい判断を下すことになります。
こうした決定に備えるために、私たちは、開発者が AI システムが大惨事を引き起こす可能性が低いという構造化された理論的根拠である「安全性のケース」をどのように作成できるかを調査します。
私たちは、安全性の事例を整理するためのフレームワークを提案し、安全性を正当化するための 4 つのカテゴリーの議論について議論します。それは、大災害を引き起こす可能性がまったくないこと、十分に強力な制御手段、危害を引き起こす可能性があるにもかかわらず信頼できること、および信頼できる AI アドバイザーへの敬意です。
各カテゴリの議論の具体例を評価し、AI システムが安全に導入できることを正当化するために議論をどのように組み合わせることができるかを概説します。

要約(オリジナル)

As AI systems become more advanced, companies and regulators will make difficult decisions about whether it is safe to train and deploy them. To prepare for these decisions, we investigate how developers could make a ‘safety case,’ which is a structured rationale that AI systems are unlikely to cause a catastrophe. We propose a framework for organizing a safety case and discuss four categories of arguments to justify safety: total inability to cause a catastrophe, sufficiently strong control measures, trustworthiness despite capability to cause harm, and deference to credible AI advisors. We evaluate concrete examples of arguments in each category and outline how arguments could be combined to justify that AI systems are safe to deploy.

arxiv情報

著者 Joshua Clymer,Nick Gabrieli,David Krueger,Thomas Larsen
発行日 2024-03-15 16:53:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY パーマリンク