Learning H-Infinity Locomotion Control

要約

四足ロボットには険しい環境での安定した移動が不可欠であり、さまざまな外乱に耐える能力が求められます。
ただし、最近の学習ベースのポリシーは、学習されたポリシーの堅牢性を向上させるために基本的なドメインのランダム化のみを使用しているため、ロボットが十分な外乱耐性を備えていることは保証できません。
この論文では、アクターと新たに導入された妨害者との間の敵対的相互作用として学習プロセスをモデル化し、$H_{\infty}$ 制約を使用してそれらの最適化を保証することを提案します。
割引された全体的な報酬を最大化するアクターとは対照的に、ディスターバーは効果的な外力を生成する責任があり、タスクの報酬とそのオラクルの間の誤差、つまり各反復の「コスト」を最大化することによって最適化されます。
アクターとディスターバー間の共同最適化を安定に保つために、$H_{\infty}$ 制約はコストと外力の強さの比率の限界を義務付けます。
トレーニング段階全体を通じて相互作用することで、俳優はますます複雑になる身体的障害に対処する能力を獲得できます。
私たちは、Unitree Aliengo ロボットを使用した四足歩行タスクに対するアプローチの堅牢性を検証します。また、Unitree A1 ロボットを使用した、より困難なタスク (四足歩行ロボットが二足歩行ロボットであるかのように後脚のみで移動を実行することが期待される) に対するアプローチの堅牢性を検証します。
シミュレートされた定量的結果はベースラインに対する改善を示し、方法と各設計選択の有効性を示しています。
一方、実際のロボット実験では、階段、高いプラットフォーム、坂道、滑りやすい地形など、さまざまな地形でさまざまな外乱に干渉するときにポリシーがどれほど堅牢であるかを定性的に示します。
すべてのコード、チェックポイント、および実際の展開ガイダンスが公開されます。

要約(オリジナル)

Stable locomotion in precipitous environments is an essential capability of quadruped robots, demanding the ability to resist various external disturbances. However, recent learning-based policies only use basic domain randomization to improve the robustness of learned policies, which cannot guarantee that the robot has adequate disturbance resistance capabilities. In this paper, we propose to model the learning process as an adversarial interaction between the actor and a newly introduced disturber and ensure their optimization with $H_{\infty}$ constraint. In contrast to the actor that maximizes the discounted overall reward, the disturber is responsible for generating effective external forces and is optimized by maximizing the error between the task reward and its oracle, i.e., ‘cost’ in each iteration. To keep joint optimization between the actor and the disturber stable, our $H_{\infty}$ constraint mandates the bound of ratio between the cost to the intensity of the external forces. Through reciprocal interaction throughout the training phase, the actor can acquire the capability to navigate increasingly complex physical disturbances. We verify the robustness of our approach on quadrupedal locomotion tasks with Unitree Aliengo robot, and also a more challenging task with Unitree A1 robot, where the quadruped is expected to perform locomotion merely on its hind legs as if it is a bipedal robot. The simulated quantitative results show improvement against baselines, demonstrating the effectiveness of the method and each design choice. On the other hand, real-robot experiments qualitatively exhibit how robust the policy is when interfering with various disturbances on various terrains, including stairs, high platforms, slopes, and slippery terrains. All code, checkpoints, and real-world deployment guidance will be made public.

arxiv情報

著者 Junfeng Long,Wenye Yu,Quanyi Li,Zirui Wang,Dahua Lin,Jiangmiao Pang
発行日 2024-04-22 17:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク