ManyQuadrupeds: Learning a Single Locomotion Policy for Diverse Quadruped Robots

要約

四足ロボットの移動ポリシーの学習は、従来、特定のロボットの形態、質量、サイズに制約されてきました。
通常、学習プロセスは新しいロボットごとに繰り返す必要があり、新しいシステムごとにパフォーマンスを最大化するためにハイパーパラメータと報酬関数の重みを再調整する必要があります。
あるいは、同じ自由度 (DoF) と形態を維持しながら、異なるロボット サイズに対応する単一のポリシーをトレーニングしようとすると、複雑な学習フレームワーク、または質量、慣性、寸法のランダム化が必要となり、トレーニング期間の延長につながります。
私たちの研究では、動物の運動制御からインスピレーションを得ることにより、多様な四足ロボットを制御できる単一の移動ポリシーを効果的に訓練できることを示しました。
これらの違いには、可変的な自由度 (つまり 12 または 16 関節)、3 つの異なる形態、2 kg から 200 kg の幅広い質量範囲、および 16 cm から 100 cm の公称立位高さが含まれます。
私たちのポリシーは、脊髄の中枢パターン発生器 (CPG) の表現を変調し、CPG の周波数と振幅の両方を効果的に調整してリズミカルな出力 (リズム生成) を生成し、その後パターン形成 (PF) レイヤーにマッピングします。
異なるロボット間で唯一異なるコンポーネントは、歩幅の高さと長さのスケーリング パラメーターを調整する PF レイヤーです。
次に、Unitree Go1 ロボットと A1 ロボットの両方で単一のポリシーをテストして、sim-to-real 転送を評価します。
驚くべきことに、A1 ロボットの公称質量の 125% に相当する 15 kg の荷重を加えた場合でも、堅牢なパフォーマンスが観察されました。

要約(オリジナル)

Learning a locomotion policy for quadruped robots has traditionally been constrained to specific robot morphology, mass, and size. The learning process must usually be repeated for every new robot, where hyperparameters and reward function weights must be re-tuned to maximize performance for each new system. Alternatively, attempting to train a single policy to accommodate different robot sizes, while maintaining the same degrees of freedom (DoF) and morphology, requires either complex learning frameworks, or mass, inertia, and dimension randomization, which leads to prolonged training periods. In our study, we show that drawing inspiration from animal motor control allows us to effectively train a single locomotion policy capable of controlling a diverse range of quadruped robots. These differences encompass a variable number of DoFs, (i.e. 12 or 16 joints), three distinct morphologies, a broad mass range spanning from 2 kg to 200 kg, and nominal standing heights ranging from 16 cm to 100 cm. Our policy modulates a representation of the Central Pattern Generator (CPG) in the spinal cord, effectively coordinating both frequencies and amplitudes of the CPG to produce rhythmic output (Rhythm Generation), which is then mapped to a Pattern Formation (PF) layer. Across different robots, the only varying component is the PF layer, which adjusts the scaling parameters for the stride height and length. Subsequently, we evaluate the sim-to-real transfer by testing the single policy on both the Unitree Go1 and A1 robots. Remarkably, we observe robust performance, even when adding a 15 kg load, equivalent to 125% of the A1 robot’s nominal mass.

arxiv情報

著者 Milad Shafiee,Guillaume Bellegarda,Auke Ijspeert
発行日 2023-10-16 15:06:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク