要約
ロボットの運動スキルは、状態と動作のマッピングとしてニューラル ネットワークによる深層強化学習 (DRL) を通じて学習できます。
状態観察の選択は重要ですが、これまで定量的な分析が不足していました。
ここでは、DRL を通じて学習された運動スキルに対するさまざまなフィードバック状態の相対的な重要性を定量的に評価する体系的な顕著性分析を紹介します。
私たちのアプローチは、バランス回復、速歩、バウンド、ペーシング、ギャロップなどの移動スキルに最も重要なフィードバック状態を特定できます。
関節の位置、重力ベクトル、基本線速度および角速度を含む主要な状態のみを使用することで、シミュレートされた四足ロボットがこれらの異なるスキル全体にわたるさまざまなテスト シナリオで堅牢なパフォーマンスを達成できることを実証します。
タスクパフォーマンスメトリクスを使用したベンチマークは、主要な状態で学習した移動スキルは、すべての状態で学習した移動スキルと同等のパフォーマンスを達成でき、主要な状態が欠落している場合、タスクのパフォーマンスまたは学習成功率が大幅に低下することを示しています。
この研究は、状態観察と特定の種類の運動スキルとの関係について定量的な洞察を提供し、ロボットの運動学習のガイドラインとして役立ちます。
提案された方法は、ニューラル ネットワーク ベースの制御ポリシーなどの微分可能な状態アクション マッピングに適用でき、最小限のセンシング依存性で幅広い運動スキルの学習を可能にします。
要約(オリジナル)
Robot motor skills can be learned through deep reinforcement learning (DRL) by neural networks as state-action mappings. While the selection of state observations is crucial, there has been a lack of quantitative analysis to date. Here, we present a systematic saliency analysis that quantitatively evaluates the relative importance of different feedback states for motor skills learned through DRL. Our approach can identify the most essential feedback states for locomotion skills, including balance recovery, trotting, bounding, pacing and galloping. By using only key states including joint positions, gravity vector, base linear and angular velocities, we demonstrate that a simulated quadruped robot can achieve robust performance in various test scenarios across these distinct skills. The benchmarks using task performance metrics show that locomotion skills learned with key states can achieve comparable performance to those with all states, and the task performance or learning success rate will drop significantly if key states are missing. This work provides quantitative insights into the relationship between state observations and specific types of motor skills, serving as a guideline for robot motor learning. The proposed method is applicable to differentiable state-action mapping, such as neural network based control policies, enabling the learning of a wide range of motor skills with minimal sensing dependencies.
arxiv情報
著者 | Wanming Yu,Chuanyu Yang,Christopher McGreavy,Eleftherios Triantafyllidis,Guillaume Bellegarda,Milad Shafiee,Auke Jan Ijspeert,Zhibin Li |
発行日 | 2023-06-29 16:58:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google