RobotKeyframing: Learning Locomotion with High-Level Objectives via Mixture of Dense and Sparse Rewards

要約

この論文では、キーフレームを使用して脚式ロボットの自然な移動に高レベルの目標を組み込む、新しい学習ベースの制御フレームワークを紹介します。
これらの高レベルの目標は、時間的に任意の間隔を置いた可変数の部分的または完全なポーズ ターゲットとして指定されます。
私たちが提案するフレームワークは、マルチクリティカル強化学習アルゴリズムを利用して、密な報酬と疎な報酬の混合を効果的に処理します。
さらに、トランスベースのエンコーダを採用して、それぞれが特定の到着時間に関連付けられた可変数の入力ターゲットに対応します。
シミュレーションとハードウェア実験を通じて、フレームワークが必要な時点でターゲットのキーフレーム シーケンスを効果的に満たすことができることを実証しました。
実験では、マルチクリティカル法により、標準的なシングルクリティカル法に比べてハイパーパラメータ調整の労力が大幅に軽減されました。
さらに、提案された変圧器ベースのアーキテクチャにより、ロボットが将来の目標を予測できるようになり、その結果、目標を達成する能力が定量的に向上します。

要約(オリジナル)

This paper presents a novel learning-based control framework that uses keyframing to incorporate high-level objectives in natural locomotion for legged robots. These high-level objectives are specified as a variable number of partial or complete pose targets that are spaced arbitrarily in time. Our proposed framework utilizes a multi-critic reinforcement learning algorithm to effectively handle the mixture of dense and sparse rewards. Additionally, it employs a transformer-based encoder to accommodate a variable number of input targets, each associated with specific time-to-arrivals. Throughout simulation and hardware experiments, we demonstrate that our framework can effectively satisfy the target keyframe sequence at the required times. In the experiments, the multi-critic method significantly reduces the effort of hyperparameter tuning compared to the standard single-critic alternative. Moreover, the proposed transformer-based architecture enables robots to anticipate future goals, which results in quantitative improvements in their ability to reach their targets.

arxiv情報

著者 Fatemeh Zargarbashi,Jin Cheng,Dongho Kang,Robert Sumner,Stelian Coros
発行日 2024-07-16 10:15:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク