OPT-Mimic: Imitation of Optimized Trajectories for Dynamic Quadruped Behaviors

要約

強化学習 (RL) は、四足歩行ロボット制御で最近多くの成功を収めています。
参照モーションの模倣は、細心の注意を払った報酬設計を必要とせずに、ソリューションを望ましいソリューションに導くためのシンプルで強力な事前情報を提供します。
多くの研究では、モーション キャプチャ データまたは手作りの軌道を参照モーションとして使用していますが、モデルベースの軌道最適化から得られる参照モーションの使用を検討した研究は比較的少ないです。
この作業では、トロット、フロント ホップ、180 度のバックフリップ、二足歩行の 4 つの動的動作を通じて実証されるように、このようなフレームワークで発生するいくつかの設計上の考慮事項を調査します。
これらはシミュレーションでトレーニングされ、さらに適応することなく物理的な Solo 8 四足歩行ロボットに転送されます。
特に、軌道オプティマイザーによって提供されるフィードフォワード設計の空間を調査して、RL 学習効率とシミュレーションから実数への転送への影響を理解します。
これらの調査結果は、モデルベースの最適化の解釈可能性と精度をモデルフリーの RL ベースのコントローラーが提供するロバスト性と組み合わせるロボット コントローラーを作成するという長年の目標に貢献します。

要約(オリジナル)

Reinforcement Learning (RL) has seen many recent successes for quadruped robot control. The imitation of reference motions provides a simple and powerful prior for guiding solutions towards desired solutions without the need for meticulous reward design. While much work uses motion capture data or hand-crafted trajectories as the reference motion, relatively little work has explored the use of reference motions coming from model-based trajectory optimization. In this work, we investigate several design considerations that arise with such a framework, as demonstrated through four dynamic behaviours: trot, front hop, 180 backflip, and biped stepping. These are trained in simulation and transferred to a physical Solo 8 quadruped robot without further adaptation. In particular, we explore the space of feed-forward designs afforded by the trajectory optimizer to understand its impact on RL learning efficiency and sim-to-real transfer. These findings contribute to the long standing goal of producing robot controllers that combine the interpretability and precision of model-based optimization with the robustness that model-free RL-based controllers offer.

arxiv情報

著者 Yuni Fuchioka,Zhaoming Xie,Michiel van de Panne
発行日 2023-03-23 21:50:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク