要約
人間中心のアプリケーションで安全性を保証することは、ロボットの学習において重要です。学習されたポリシーは、以前は見られなかったシナリオで安全でない動作を示す可能性があるためです。
混合整数二次計画法 (MIQP) を使用して、一連の正式な安全制約を満たすために、誤ったポリシー ネットワークをローカルで修復するためのフレームワークを提示します。
私たちの MIQP 定式化は、元の損失関数を最小限に抑えながら、学習したポリシーに安全制約を明示的に課します。
次に、ポリシー ネットワークがローカルで安全であることが確認されます。
ロボットの下肢義足の安全なポリシーを導出するためのフレームワークの適用を示します。
要約(オリジナル)
Guaranteeing safety in human-centric applications is critical in robot learning as the learned policies may demonstrate unsafe behaviors in formerly unseen scenarios. We present a framework to locally repair an erroneous policy network to satisfy a set of formal safety constraints using Mixed Integer Quadratic Programming (MIQP). Our MIQP formulation explicitly imposes the safety constraints to the learned policy while minimizing the original loss function. The policy network is then verified to be locally safe. We demonstrate the application of our framework to derive safe policies for a robotic lower-leg prosthesis.
arxiv情報
著者 | Keyvan Majd,Geoffrey Clark,Tanmay Khandait,Siyu Zhou,Sriram Sankaranarayanan,Georgios Fainekos,Heni Ben Amor |
発行日 | 2023-03-12 05:28:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google