Expert Composer Policy: Scalable Skill Repertoire for Quadruped Robots

要約

私たちは、四足エージェントのスキル レパートリーを確実に拡張するためのフレームワークであるエキスパート コンポーザー ポリシーを提案します。
Composer ポリシーは、サンプリングされたターゲット状態への遷移を介してエキスパートのペアをリンクし、エキスパートを順番に構成できるようにします。
各専門家は、移動歩行やジャンプ動作などの 1 つのスキルを専門としています。
階層的または専門家の混合アーキテクチャの代わりに、他のエキスパート ポリシーに条件付けされない独立したプロセスで単一のコンポーザー ポリシーをトレーニングします。
同じ作曲家ポリシーを再利用することで、私たちのアプローチは既存のエキスパートに影響を与えることなく新しいエキスパートを追加することを可能にし、段階的なレパートリーの拡大と元のモーションの品質の維持を可能にします。
72 の遷移ペアの遷移成功率を測定したところ、平均成功率 99.99\% を達成しました。これは、ベースラインのランダム アプローチよりも 10\% 以上高く、他の最先端の手法を上回っています。
トレーニング中にドメインのランダム化を使用することで、現実世界への移行が確実に成功し、実験では平均移行成功率 97.22\% (N=360) を達成しました。

要約(オリジナル)

We propose the expert composer policy, a framework to reliably expand the skill repertoire of quadruped agents. The composer policy links pair of experts via transitions to a sampled target state, allowing experts to be composed sequentially. Each expert specializes in a single skill, such as a locomotion gait or a jumping motion. Instead of a hierarchical or mixture-of-experts architecture, we train a single composer policy in an independent process that is not conditioned on the other expert policies. By reusing the same composer policy, our approach enables adding new experts without affecting existing ones, enabling incremental repertoire expansion and preserving original motion quality. We measured the transition success rate of 72 transition pairs and achieved an average success rate of 99.99\%, which is over 10\% higher than the baseline random approach, and outperforms other state-of-the-art methods. Using domain randomization during training we ensure a successful transfer to the real world, where we achieve an average transition success rate of 97.22\% (N=360) in our experiments.

arxiv情報

著者 Guilherme Christmann,Ying-Sheng Luo,Wei-Chao Chen
発行日 2024-03-18 02:00:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク