SATA: Safe and Adaptive Torque-Based Locomotion Policies Inspired by Animal Learning

要約

脚のあるロボットの学習ベースのコントローラーの最近の進歩にもかかわらず、人間中心の環境への展開は安全性の懸念によって制限されたままです。
これらのアプローチのほとんどは、ポジションベースのコントロールを使用します。ポリシーは、低レベルのコントローラー(PDやインピーダンスコントローラーなど)によって処理する必要があるジョイントアングルをターゲットに出力して、ジョイントトルクを計算します。
制御された現実世界のシナリオでは印象的な結果が達成されていますが、これらの方法は、トレーニング中に目にされていない環境や乱れに遭遇するときにコンプライアンスと適応性に苦労し、極端または安全でない行動をもたらす可能性があります。
トルクベースのポリシーは、筋肉の伸びと収縮を制御することにより動物が滑らかで適応的な動きを達成する方法に触発され、トルク空間でアクチュエーターを正確かつ直接的に制御できるようにすることにより、有望な代替手段を提供します。
原則として、このアプローチは環境とのより効果的な相互作用を促進し、より安全で適応性のある行動をもたらします。
ただし、非常に非線形の状態空間やトレーニング中の非効率的な調査などの課題により、より広範な採用が妨げられています。
これらの制限に対処するために、動物の移動で観察される重要な生体力学的原理と適応学習メカニズムを模倣するバイオ風のフレームワークであるSATAを提案します。
当社のアプローチは、初期段階の探索を大幅に改善し、高性能の最終ポリシーにつながることにより、トルクベースのポリシーを学習するという固有の課題に効果的に対処しています。
驚くべきことに、私たちの方法はゼロショットSIMからリアルへの転送を達成します。
私たちの実験結果は、SATAが柔らかい/滑りやすい地形や狭い箇所などの挑戦的な環境でさえ、顕著な外乱の下でも、顕著なコンプライアンスと安全性を示しており、人間中心および安全性の高いシナリオにおける実用的な展開の可能性を強調していることを示しています。

要約(オリジナル)

Despite recent advances in learning-based controllers for legged robots, deployments in human-centric environments remain limited by safety concerns. Most of these approaches use position-based control, where policies output target joint angles that must be processed by a low-level controller (e.g., PD or impedance controllers) to compute joint torques. Although impressive results have been achieved in controlled real-world scenarios, these methods often struggle with compliance and adaptability when encountering environments or disturbances unseen during training, potentially resulting in extreme or unsafe behaviors. Inspired by how animals achieve smooth and adaptive movements by controlling muscle extension and contraction, torque-based policies offer a promising alternative by enabling precise and direct control of the actuators in torque space. In principle, this approach facilitates more effective interactions with the environment, resulting in safer and more adaptable behaviors. However, challenges such as a highly nonlinear state space and inefficient exploration during training have hindered their broader adoption. To address these limitations, we propose SATA, a bio-inspired framework that mimics key biomechanical principles and adaptive learning mechanisms observed in animal locomotion. Our approach effectively addresses the inherent challenges of learning torque-based policies by significantly improving early-stage exploration, leading to high-performance final policies. Remarkably, our method achieves zero-shot sim-to-real transfer. Our experimental results indicate that SATA demonstrates remarkable compliance and safety, even in challenging environments such as soft/slippery terrain or narrow passages, and under significant external disturbances, highlighting its potential for practical deployments in human-centric and safety-critical scenarios.

arxiv情報

著者 Peizhuo Li,Hongyi Li,Ge Sun,Jin Cheng,Xinrong Yang,Guillaume Bellegarda,Milad Shafiee,Yuhong Cao,Auke Ijspeert,Guillaume Sartoretti
発行日 2025-02-18 09:25:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク