Natural and Robust Walking using Reinforcement Learning without Demonstrations in High-Dimensional Musculoskeletal Models

要約

人間は、複雑な自然環境において堅牢な二足歩行を得意とします。
各ステップで、生体力学的な筋肉のダイナミクスとニューロン信号の相互作用を適切に調整して、地面の状態の不確実性に対して堅牢にします。
しかし、神経系が筋骨格系の冗長性をどのように解決して、安定性、堅牢性、エネルギー効率を考慮した多目的制御問題を解決するのかはまだ完全には理解されていません。
コンピューター シミュレーションでは、エネルギーの最小化が最適化目標として成功し、軌道の最適化または反射ベースの制御方法で自然な歩行を再現することが示されています。
ただし、これらの方法は一度に特定の動作に焦点を当てており、摂動を補償する場合、結果として得られるコントローラーは制限されます。
ロボット工学では、強化学習 (RL) 手法により、最近四足システムで非常に安定した (そして効率的な) 移動が実現されましたが、二足歩行の生体力学モデルを使用して人間のような歩行を生成するには、専門家のデータセットを広範囲に使用する必要がありました。
このようにデモンストレーションに強く依存すると、ポリシーが脆弱になることが多く、特に 3D の高次元筋骨格モデルの潜在的なさまざまな動きを考慮すると、新しい動作への適用が制限されます。
RL の驚異的な堅牢性を犠牲にすることなく、RL で自然な移動を実現することは、複雑な自然環境における人間の歩行を研究するための新しいアプローチへの道を開く可能性があります。

要約(オリジナル)

Humans excel at robust bipedal walking in complex natural environments. In each step, they adequately tune the interaction of biomechanical muscle dynamics and neuronal signals to be robust against uncertainties in ground conditions. However, it is still not fully understood how the nervous system resolves the musculoskeletal redundancy to solve the multi-objective control problem considering stability, robustness, and energy efficiency. In computer simulations, energy minimization has been shown to be a successful optimization target, reproducing natural walking with trajectory optimization or reflex-based control methods. However, these methods focus on particular motions at a time and the resulting controllers are limited when compensating for perturbations. In robotics, reinforcement learning~(RL) methods recently achieved highly stable (and efficient) locomotion on quadruped systems, but the generation of human-like walking with bipedal biomechanical models has required extensive use of expert data sets. This strong reliance on demonstrations often results in brittle policies and limits the application to new behaviors, especially considering the potential variety of movements for high-dimensional musculoskeletal models in 3D. Achieving natural locomotion with RL without sacrificing its incredible robustness might pave the way for a novel approach to studying human walking in complex natural environments.

arxiv情報

著者 Pierre Schumacher,Thomas Geijtenbeek,Vittorio Caggiano,Vikash Kumar,Syn Schmitt,Georg Martius,Daniel F. B. Haeufle
発行日 2023-09-06 13:20:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク