Safe Deep Policy Adaptation

要約

自律性と人工知能の重要な目標は、自律ロボットが動的で不確実な環境に迅速に適応できるようにすることです。
従来の適応制御と安全制御は安定性と安全性を保証しますが、特定のシステム クラスに限定されます。
対照的に、強化学習 (RL) に基づくポリシー適応は汎用性と汎用性を提供しますが、安全性と堅牢性の課題が生じます。
我々は、ポリシー適応と安全な強化学習の問題に同時に取り組む新しい RL および制御フレームワークである SafeDPA を提案します。
SafeDPA は、シミュレーションで適応ポリシーとダイナミクス モデルを共同学習し、環境構成を予測し、数ショットの実世界データを使用してダイナミクス モデルを微調整します。
実際の展開時の安全性を確保するために、RL ポリシーに加えてコントロール バリア機能 (CBF) に基づく安全フィルターが導入されています。
SafeDPA の理論的な安全性を保証し、学習エラーや余分な摂動に対する SafeDPA の堅牢性を示します。
(1) 古典的な制御問題 (倒立振子)、(2) シミュレーション ベンチマーク (セーフティ ジム)、(3) 現実世界のアジャイル ロボット プラットフォーム (RC カー) に関する包括的な実験により、安全性とタスク パフォーマンスの両方において SafeDPA の優れた点が実証されました。
、最先端のベースラインを超えています。
特に、SafeDPA は顕著な一般化性を示し、実世界の実験では目に見えない外乱下で、ベースラインと比較して 300% の安全率の向上を達成しました。

要約(オリジナル)

A critical goal of autonomy and artificial intelligence is enabling autonomous robots to rapidly adapt in dynamic and uncertain environments. Classic adaptive control and safe control provide stability and safety guarantees but are limited to specific system classes. In contrast, policy adaptation based on reinforcement learning (RL) offers versatility and generalizability but presents safety and robustness challenges. We propose SafeDPA, a novel RL and control framework that simultaneously tackles the problems of policy adaptation and safe reinforcement learning. SafeDPA jointly learns adaptive policy and dynamics models in simulation, predicts environment configurations, and fine-tunes dynamics models with few-shot real-world data. A safety filter based on the Control Barrier Function (CBF) on top of the RL policy is introduced to ensure safety during real-world deployment. We provide theoretical safety guarantees of SafeDPA and show the robustness of SafeDPA against learning errors and extra perturbations. Comprehensive experiments on (1) classic control problems (Inverted Pendulum), (2) simulation benchmarks (Safety Gym), and (3) a real-world agile robotics platform (RC Car) demonstrate great superiority of SafeDPA in both safety and task performance, over state-of-the-art baselines. Particularly, SafeDPA demonstrates notable generalizability, achieving a 300% increase in safety rate compared to the baselines, under unseen disturbances in real-world experiments.

arxiv情報

著者 Wenli Xiao,Tairan He,John Dolan,Guanya Shi
発行日 2024-04-28 18:04:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク