要約
模倣による学習は、ロボットが十分に規制された複雑な行動を開発し、自然なデモンストレーションから直接恩恵を受ける効果的な方法を提供します。
通常、最先端の模倣学習(IL)アプローチは、通常、敵対的な運動前(AMP)を活用します。これは、印象的な結果にもかかわらず、2つの重要な制限に苦しんでいます。
彼らはモードの崩壊を起こしやすく、それはしばしばシミュレーション環境への過剰適合につながり、したがってSIMからリアルのギャップを増加させ、彼らは多様な行動を効果的に学ぶのに苦労しています。
これらの制限を克服するために、APEX(アクションプライアーが効率的な探索を有効にする)を導入します。デモンストレーションを強化学習(RL)に直接統合するシンプルでありながら多目的な模倣学習フレームワーク(RL)を統合し、専門家に基づいたプライアーとの接地行動を維持します。
これは、最初は専門家のデモンストレーションに向けて探査をバイアスするが、ポリシーが独立して探求できるようにすることを最初に偏っている崩壊するアクションプライアーの組み合わせを通じて達成します。
これは、スタイルの一貫性とタスクパフォーマンスのバランスを効果的にバランスさせるマルチクリティックRLフレームワークによって補完されます。
私たちのアプローチは、サンプル効率の高い模倣学習を実現し、単一のポリシー内で多様なスキルを獲得することを可能にします。
Apexは、さまざまな速度に一般化し、粗い地形のナビゲートや階段の登山などの複雑なタスク全体で参照のようなスタイルを保存し、以前のフラットテレイン運動モーションデータのみを利用します。
Unitree GO2四足動物での広範なハードウェア実験を通じて、フレームワークを検証します。
そこでは、Apexは、多様で機敏な移動歩行、固有の歩行遷移、およびプラットフォームで最も高い報告速度を私たちの知識を得て生成します(ハードウェアの〜3.3 m/sのピーク速度)。
我々の結果は、Apexを既存のILメソッドに代わる説得力のある代替手段として確立し、より良い効率、適応性、および現実世界のパフォーマンスを提供します。
要約(オリジナル)
Learning by imitation provides an effective way for robots to develop well-regulated complex behaviors and directly benefit from natural demonstrations. State-of-the-art imitation learning (IL) approaches typically leverage Adversarial Motion Priors (AMP), which, despite their impressive results, suffer from two key limitations. They are prone to mode collapse, which often leads to overfitting to the simulation environment and thus increased sim-to-real gap, and they struggle to learn diverse behaviors effectively. To overcome these limitations, we introduce APEX (Action Priors enable Efficient eXploration): a simple yet versatile imitation learning framework that integrates demonstrations directly into reinforcement learning (RL), maintaining high exploration while grounding behavior with expert-informed priors. We achieve this through a combination of decaying action priors, which initially bias exploration toward expert demonstrations but gradually allow the policy to explore independently. This is complemented by a multi-critic RL framework that effectively balances stylistic consistency with task performance. Our approach achieves sample-efficient imitation learning and enables the acquisition of diverse skills within a single policy. APEX generalizes to varying velocities and preserves reference-like styles across complex tasks such as navigating rough terrain and climbing stairs, utilizing only flat-terrain kinematic motion data as a prior. We validate our framework through extensive hardware experiments on the Unitree Go2 quadruped. There, APEX yields diverse and agile locomotion gaits, inherent gait transitions, and the highest reported speed for the platform to the best of our knowledge (peak velocity of ~3.3 m/s on hardware). Our results establish APEX as a compelling alternative to existing IL methods, offering better efficiency, adaptability, and real-world performance.
arxiv情報
著者 | Shivam Sood,Laukik B Nakhwa,Yuhong Cao,Sun Ge,Guillaume Sartoretti |
発行日 | 2025-05-15 07:09:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google