Safe Learning of Locomotion Skills from MPC

要約

移動スキルの安全な学習は依然として未解決の問題です。
実際、移動システムの開ループ力学の本質的に不安定な性質により、ゼロからの単純な学習は現実世界では壊滅的な失敗を起こしやすくなります。
この研究では、モデル予測制御 (MPC) から移動スキルを安全に学習するための反復アルゴリズムの使用を調査します。
私たちのフレームワークでは、エキスパートとして MPC を使用し、安全なデータ集約 (SafeDAGGER) フレームワークからインスピレーションを得て、ポリシーのトレーニング中の失敗の数を最小限に抑えます。
動作クローニングやバニラ DAGGER などの他の標準的なアプローチとの比較を通じて、私たちのアプローチではトレーニング中の失敗の数が大幅に少ないだけでなく、結果として得られるポリシーが外乱に対してより堅牢であることも示します。

要約(オリジナル)

Safe learning of locomotion skills is still an open problem. Indeed, the intrinsically unstable nature of the open-loop dynamics of locomotion systems renders naive learning from scratch prone to catastrophic failures in the real world. In this work, we investigate the use of iterative algorithms to safely learn locomotion skills from model predictive control (MPC). In our framework, we use MPC as an expert and take inspiration from the safe data aggregation (SafeDAGGER) framework to minimize the number of failures during training of the policy. Through a comparison with other standard approaches such as behavior cloning and vanilla DAGGER, we show that not only our approach has a substantially fewer number of failures during training, but the resulting policy is also more robust to external disturbances.

arxiv情報

著者 Xun Pua,Majid Khadiv
発行日 2024-07-16 12:44:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク