要約
AI の安全性における特に困難な問題は、高次元の自律システムの動作を保証することです。
到達可能性分析を中心とした検証アプローチは拡張できず、純粋に統計的なアプローチはサンプリング プロセスに関する分布の仮定によって制約されます。
代わりに、ブラック ボックス システムに対する統計的検証問題の分布的に堅牢なバージョンを提示します。この場合、パフォーマンスの保証は大規模な分布ファミリーにわたって維持されます。
この論文では、アクティブ ラーニング、不確実性の定量化、ニューラル ネットワーク検証の組み合わせに基づく新しいアプローチを提案します。
私たちのアプローチの中心となるのは、アクティブ ラーニングを導くための不確実性を提供する、不正確なニューラル ネットワークと呼ばれるアンサンブル手法です。
アクティブ ラーニングでは、徹底的なニューラル ネットワーク検証ツール Sherlock を使用してサンプルを収集します。
強化学習コントローラーを備えた openAI ジム Mujoco 環境の複数の物理シミュレーターでの評価は、私たちのアプローチが高次元システムに有用でスケーラブルな保証を提供できることを示しています。
要約(オリジナル)
A particularly challenging problem in AI safety is providing guarantees on the behavior of high-dimensional autonomous systems. Verification approaches centered around reachability analysis fail to scale, and purely statistical approaches are constrained by the distributional assumptions about the sampling process. Instead, we pose a distributionally robust version of the statistical verification problem for black-box systems, where our performance guarantees hold over a large family of distributions. This paper proposes a novel approach based on a combination of active learning, uncertainty quantification, and neural network verification. A central piece of our approach is an ensemble technique called Imprecise Neural Networks, which provides the uncertainty to guide active learning. The active learning uses an exhaustive neural-network verification tool Sherlock to collect samples. An evaluation on multiple physical simulators in the openAI gym Mujoco environments with reinforcement-learned controllers demonstrates that our approach can provide useful and scalable guarantees for high-dimensional systems.
arxiv情報
著者 | Souradeep Dutta,Michele Caprio,Vivian Lin,Matthew Cleaveland,Kuk Jin Jang,Ivan Ruchkin,Oleg Sokolsky,Insup Lee |
発行日 | 2023-08-30 16:31:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google