要約
秋のインシデントからの適応的回復は、車輪付きの足のロボットの実際の展開に不可欠なスキルであり、足の俊敏性と迅速な回復のためのホイールの速度を独自に組み合わせています。
ただし、事前に定められた回復動議、簡素化されたダイナミクス、またはスパースの報酬に依存している従来の方法は、しばしば堅牢な回復ポリシーを作成できません。
このペーパーでは、エピソードベースの動的報酬形状とカリキュラムの学習を統合する学習ベースのフレームワークを紹介します。これは、多様な回復操作と正確な姿勢の改良と動的にバランスをとります。
非対称のアクター批判的なアーキテクチャは、シミュレーションで特権情報を活用することによりトレーニングを加速しますが、ノイズ注入の観測は不確実性に対する堅牢性を高めます。
さらに、相乗効果ホイールレッグ調整により、関節のトルク消費が15.8%および26.2%減少し、エネルギー移動メカニズムを介して安定化が改善されることを実証します。
プラットフォーム固有のチューニングなしで、2つの異なる4倍のプラットフォームでの広範な評価は、最大99.1%と97.8%の回復成功率を達成します。
補足資料は、https://boyuandeng.github.io/l2r-wheellegcoordination/で入手できます。
要約(オリジナル)
Adaptive recovery from fall incidents are essential skills for the practical deployment of wheeled-legged robots, which uniquely combine the agility of legs with the speed of wheels for rapid recovery. However, traditional methods relying on preplanned recovery motions, simplified dynamics or sparse rewards often fail to produce robust recovery policies. This paper presents a learning-based framework integrating Episode-based Dynamic Reward Shaping and curriculum learning, which dynamically balances exploration of diverse recovery maneuvers with precise posture refinement. An asymmetric actor-critic architecture accelerates training by leveraging privileged information in simulation, while noise-injected observations enhance robustness against uncertainties. We further demonstrate that synergistic wheel-leg coordination reduces joint torque consumption by 15.8% and 26.2% and improves stabilization through energy transfer mechanisms. Extensive evaluations on two distinct quadruped platforms achieve recovery success rates up to 99.1% and 97.8% without platform-specific tuning. The supplementary material is available at https://boyuandeng.github.io/L2R-WheelLegCoordination/
arxiv情報
著者 | Boyuan Deng,Luca Rossini,Jin Wang,Weijie Wang,Nikolaos Tsagarakis |
発行日 | 2025-06-05 18:58:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google