Visual CPG-RL: Learning Central Pattern Generators for Visually-Guided Quadruped Locomotion

要約

我々は、外受容センシングと中央パターンジェネレーター(CPG)、つまり結合振動子のシステムを深層強化学習(DRL)フレームワークに統合することにより、視覚的に誘導された四足歩行を学習するためのフレームワークを提案します。
外受容感覚と固有受容感覚の両方を通じて、エージェントは速度コマンドを追跡するためにさまざまな振動子間のリズミカルな動作を調整することを学習し、同時にこれらのコマンドをオーバーライドして環境との衝突を回避します。
私たちは、ロボット工学と神経科学に関するいくつかの未解決の質問を調査します。 1) 発振器間の明示的な発振器間結合の役割は何ですか? また、そのような結合はナビゲーションの堅牢性のためのシミュレーションからリアルへの変換を改善できるでしょうか?
2) シミュレーションからリアルへのナビゲーション タスクにおける堅牢性、エネルギー効率、および追跡パフォーマンスに関して、メモリ対応のポリシー ネットワークを使用した場合とメモリを使用しないポリシー ネットワークを使用した場合の影響は何ですか?
3) 動物はどのようにして高度な感覚運動の遅れに耐えながらも、滑らかで力強い歩行を実現できるのでしょうか?
これらの質問に答えるために、シミュレーションで知覚移動ポリシーをトレーニングし、四足歩行の Unitree Go1 へのシミュレートからリアルへの転送を実行し、そこでさまざまなシナリオで堅牢なナビゲーションを観察します。
私たちの結果は、CPG、明示的な発振器間結合、およびメモリ対応ポリシー表現がすべて、エネルギー効率、ノイズおよび 90 ミリ秒の感覚遅延に対する堅牢性、およびナビゲーション タスクのシミュレーションからリアルへの転送を成功させるための追跡パフォーマンスに有益であることを示しています。
ビデオ結果は https://youtu.be/wpsbSMzIwgM でご覧いただけます。

要約(オリジナル)

We present a framework for learning visually-guided quadruped locomotion by integrating exteroceptive sensing and central pattern generators (CPGs), i.e. systems of coupled oscillators, into the deep reinforcement learning (DRL) framework. Through both exteroceptive and proprioceptive sensing, the agent learns to coordinate rhythmic behavior among different oscillators to track velocity commands, while at the same time override these commands to avoid collisions with the environment. We investigate several open robotics and neuroscience questions: 1) What is the role of explicit interoscillator couplings between oscillators, and can such coupling improve sim-to-real transfer for navigation robustness? 2) What are the effects of using a memory-enabled vs. a memory-free policy network with respect to robustness, energy-efficiency, and tracking performance in sim-to-real navigation tasks? 3) How do animals manage to tolerate high sensorimotor delays, yet still produce smooth and robust gaits? To answer these questions, we train our perceptive locomotion policies in simulation and perform sim-to-real transfers to the Unitree Go1 quadruped, where we observe robust navigation in a variety of scenarios. Our results show that the CPG, explicit interoscillator couplings, and memory-enabled policy representations are all beneficial for energy efficiency, robustness to noise and sensory delays of 90 ms, and tracking performance for successful sim-to-real transfer for navigation tasks. Video results can be found at https://youtu.be/wpsbSMzIwgM.

arxiv情報

著者 Guillaume Bellegarda,Milad Shafiee,Auke Ijspeert
発行日 2024-03-11 16:49:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク