要約
四足ロボットにとって、険しい環境での安定した移動は必須の課題であり、さまざまな外乱に耐える能力が求められます。
最近のニューラル ポリシーは、シミュレートされた環境内の固定分布からサンプリングされた外力に抵抗する方法を学習することで、外乱に対するロバスト性を強化しています。
ただし、力の生成プロセスではロボットの現在の状態が考慮されていないため、ロボットを最も不安定だが回復可能な状態に押し上げる最も効果的な方向と大きさを特定することが困難になります。
したがって、バッファ内の困難なケースはロバスト性を最適化するには不十分です。
この論文では、適切な外力を生成するためにロボットの状態を条件とする学習可能な外乱と、移動ポリシーとの間の敵対的相互作用として、ロバストな移動学習プロセスをモデル化することを提案します。
ジョイントの最適化を安定させるために、新しい $H_{\infty}$ 制約により、コストと外力の強さの比率の制限が義務付けられます。
私たちは、四足歩行タスクと、四足歩行が後足のみで移動を行うより困難なタスクについて、シミュレーション環境と現実世界の展開の両方でアプローチの堅牢性を検証します。
トレーニングおよび導入コードは公開されます。
要約(オリジナル)
Stable locomotion in precipitous environments is an essential task for quadruped robots, requiring the ability to resist various external disturbances. Recent neural policies enhance robustness against disturbances by learning to resist external forces sampled from a fixed distribution in the simulated environment. However, the force generation process doesn’t consider the robot’s current state, making it difficult to identify the most effective direction and magnitude that can push the robot to the most unstable but recoverable state. Thus, challenging cases in the buffer are insufficient to optimize robustness. In this paper, we propose to model the robust locomotion learning process as an adversarial interaction between the locomotion policy and a learnable disturbance that is conditioned on the robot state to generate appropriate external forces. To make the joint optimization stable, our novel $H_{\infty}$ constraint mandates the bound of the ratio between the cost and the intensity of the external forces. We verify the robustness of our approach in both simulated environments and real-world deployment, on quadrupedal locomotion tasks and a more challenging task where the quadruped performs locomotion merely on hind legs. Training and deployment code will be made public.
arxiv情報
著者 | Junfeng Long,Wenye Yu,Quanyi Li,Zirui Wang,Dahua Lin,Jiangmiao Pang |
発行日 | 2024-06-12 11:31:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google