Learning a Single Policy for Diverse Behaviors on a Quadrupedal Robot using Scalable Motion Imitation

要約

四足歩行ロボットのさまざまな運動能力を学習することは、タスク固有の数学的モデルまたは報酬の説明を慎重に設計する必要がある難しい問題です。
この作業では、深層強化学習を使用して、歩行、回転、ペーシング、ジャンプ、座る、横になるなどの多数の参照動作を模倣することにより、単一の有効なポリシーを学習することを提案します。
既存のモーション模倣フレームワークに加えて、最初に観測空間、アクション空間、および報酬関数を慎重に設計して、学習のスケーラビリティと最終的なポリシーの堅牢性を向上させます。
さらに、成功した行動と失敗した行動のバランスを維持する新しい適応モーション サンプリング (AMS) メソッドを採用しています。
この手法により、学習アルゴリズムは挑戦的な運動能力に集中し、壊滅的な忘却を避けることができます。
トレーニングデータセットと分布外の軌跡の両方をうまく追跡することにより、学習したポリシーがシミュレーションで多様な動作を示すことができることを示します。
また、実験を行うことにより、提案された学習定式化と適応モーションサンプリングスキームの重要性を検証します。

要約(オリジナル)

Learning various motor skills for quadrupedal robots is a challenging problem that requires careful design of task-specific mathematical models or reward descriptions. In this work, we propose to learn a single capable policy using deep reinforcement learning by imitating a large number of reference motions, including walking, turning, pacing, jumping, sitting, and lying. On top of the existing motion imitation framework, we first carefully design the observation space, the action space, and the reward function to improve the scalability of the learning as well as the robustness of the final policy. In addition, we adopt a novel adaptive motion sampling (AMS) method, which maintains a balance between successful and unsuccessful behaviors. This technique allows the learning algorithm to focus on challenging motor skills and avoid catastrophic forgetting. We demonstrate that the learned policy can exhibit diverse behaviors in simulation by successfully tracking both the training dataset and out-of-distribution trajectories. We also validate the importance of the proposed learning formulation and the adaptive motion sampling scheme by conducting experiments.

arxiv情報

著者 Arnaud Klipfel,Nitish Sontakke,Ren Liu,Sehoon Ha
発行日 2023-03-27 15:32:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク