要約
AIシステムの安全性が最近、特に物理的なAIアプリケーションで、実際の展開の重要な優先事項として最近浮上しました。
AIの安全性への現在のアプローチは、通常、事前に定義されたドメイン固有の安全条件に対処し、コンテキスト全体で一般化する能力を制限します。
AIシステムが\ textBf {任意のユーザー定義の制約}、\ textBf {任意の確率}、および\ textbf {さまざまなドメイン}を介して\ textbf {任意の確率}を保証する新しいAI安全フレームワークを提案します。
このフレームワークでは、AIコンポーネント(ニューラルネットワークなど)を最適化問題と組み合わせて、ユーザー定義の制約を満たしながら、ユーザー定義のしきい値を超える確率を満たしながら目標を最小限に抑える応答を生成します。
AIコンポーネントの信頼性評価のために、\ textIT {内部テストデータ}、安全標識データの補足セット、および内部テストデータの使用の統計的有効性を提供する\ textIT {保守的テスト}方法論を提案します。
また、損失関数の近似方法と、トレーニングの勾配を計算する方法も提示します。
確率的制約満足度が特定の軽度の条件下で保証されていることを数学的に証明し、安全性と内部テストデータの数との間のスケーリング法則を証明します。
多様なドメインでの実験を通じてフレームワークの有効性を実証します。これは、生産決定の需要予測、SafetyGymシミュレーター内の安全な補強学習、およびAIチャットボットの出力を守ることです。
これらの実験を通じて、私たちの方法は、ユーザー指定の制約の安全性を保証し、{for \ textBf {最大数桁の大きさ}}の既存のメソッドを上回ることを実証します。
要約(オリジナル)
Ensuring the safety of AI systems has recently emerged as a critical priority for real-world deployment, particularly in physical AI applications. Current approaches to AI safety typically address predefined domain-specific safety conditions, limiting their ability to generalize across contexts. We propose a novel AI safety framework that ensures AI systems comply with \textbf{any user-defined constraint}, with \textbf{any desired probability}, and across \textbf{various domains}. In this framework, we combine an AI component (e.g., neural network) with an optimization problem to produce responses that minimize objectives while satisfying user-defined constraints with probabilities exceeding user-defined thresholds. For credibility assessment of the AI component, we propose \textit{internal test data}, a supplementary set of safety-labeled data, and a \textit{conservative testing} methodology that provides statistical validity of using internal test data. We also present an approximation method of a loss function and how to compute its gradient for training. We mathematically prove that probabilistic constraint satisfaction is guaranteed under specific, mild conditions and prove a scaling law between safety and the number of internal test data. We demonstrate our framework’s effectiveness through experiments in diverse domains: demand prediction for production decision, safe reinforcement learning within the SafetyGym simulator, and guarding AI chatbot outputs. Through these experiments, we demonstrate that our method guarantees safety for user-specified constraints, outperforms {for \textbf{up to several order of magnitudes}} existing methods in low safety threshold regions, and scales effectively with respect to the size of internal test data.
arxiv情報
著者 | Beomjun Kim,Kangyeon Kim,Sunwoo Kim,Heejin Ahn |
発行日 | 2025-04-29 16:38:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google