Guarantees on Robot System Performance Using Stochastic Simulation Rollouts

要約

確率論的ロボット システムで実行される制御ポリシーに対して、有限サンプルのパフォーマンス保証を提供します。
開ループまたは閉ループのポリシーと、そのポリシーに基づく有限セットの軌道ロールアウトを考慮して、軌道コストの期待値、リスク値、条件付きリスク値、および失敗の確率を制限しました。
まばらなコスト設定で。
この境界は、ユーザーが指定した確率であらゆるポリシー合成手法に適用され、設計後の安全性証明と見なすことができます。
境界の生成には、基礎となる確率システムの分布や複雑さについての仮定を必要とせず、サンプリング シミュレーションのロールアウトのみが必要です。
これらの境界を適応させて、ロボット システムの安全性を検証するための制約満足テストも行います。
シミュレーションから実数への分布シフトに対する限界感度を徹底的に分析し、特定の量の分布シフトを許容できる堅牢な限界を構築するための結果を提供します。
さらに、複数の仮説の修正を必要とする候補のセットから最適なポリシーを選択するときに適用する方法を拡張します。
Ant、ハーフチーター、スイマー MuJoCo 環境における境界の統計的妥当性を示し、Ant を使用した制約満足テストを示します。
最後に、20 自由度の MuJoCo Shadow Hand を使用して、複数の仮説修正の必要性を示します。

要約(オリジナル)

We provide finite-sample performance guarantees for control policies executed on stochastic robotic systems. Given an open- or closed-loop policy and a finite set of trajectory rollouts under the policy, we bound the expected value, value-at-risk, and conditional-value-at-risk of the trajectory cost, and the probability of failure in a sparse cost setting. The bounds hold, with user-specified probability, for any policy synthesis technique and can be seen as a post-design safety certification. Generating the bounds only requires sampling simulation rollouts, without assumptions on the distribution or complexity of the underlying stochastic system. We adapt these bounds to also give a constraint satisfaction test to verify safety of the robot system. We provide a thorough analysis of the bound sensitivity to sim-to-real distribution shifts and provide results for constructing robust bounds that can tolerate some specified amount of distribution shift. Furthermore, we extend our method to apply when selecting the best policy from a set of candidates, requiring a multi-hypothesis correction. We show the statistical validity of our bounds in the Ant, Half-cheetah, and Swimmer MuJoCo environments and demonstrate our constraint satisfaction test with the Ant. Finally, using the 20 degree-of-freedom MuJoCo Shadow Hand, we show the necessity of the multi-hypothesis correction.

arxiv情報

著者 Joseph A. Vincent,Aaron O. Feldman,Mac Schwager
発行日 2024-06-13 20:57:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク