SAR: Generalization of Physiological Agility and Dexterity via Synergistic Action Representation

要約

筋骨格系エージェントを含む高次元システムにおける効果的な継続的制御ポリシーを学習することは、依然として大きな課題です。
生物進化の過程で、生物はこの複雑さを克服し、運動制御のための高度に洗練された戦略を学習するための堅牢なメカニズムを開発してきました。
この堅牢な行動の柔軟性は何が説明されるのでしょうか?
筋肉の相乗効果、つまり調整された筋肉の同時収縮を介したモジュール制御は、生物が単純化された一般化可能な行動空間で筋肉制御を学習できるようにする推定メカニズムの1つであると考えられています。
この進化した運動制御戦略からインスピレーションを得て、私たちは生理学的に正確な人間の手と脚のモデルを、より単純なタスクから獲得した相乗的動作表現 (SAR) がより複雑なタスクの学習を容易にする程度を決定するためのテストベッドとして使用します。
どちらの場合でも、SAR を利用するポリシーがエンドツーエンドの強化学習よりも大幅に優れていることがわかります。
SAR でトレーニングされたポリシーは、幅広い地形で高いサンプル効率で堅牢な移動を実現できましたが、ベースラインのアプローチでは意味のある行動を学習できませんでした。
さらに、複数オブジェクト操作タスクで SAR を使用してトレーニングされたポリシーは、ベースライン アプローチ (成功率 <20%) を大幅に上回りました (成功率 >70%)。
これらの SAR を利用する政策は両方とも、ゼロショットからドメイン外の環境条件までを一般化することが判明しましたが、SAR を採用しなかった政策は一般化できませんでした。
最後に、ロボット操作タスクセットと全身ヒューマノイド移動タスクを使用して、より広範な高次元制御問題に対する SAR の一般性を確立します。
私たちの知る限り、この調査は、相乗効果を発見し、この表現を使用して多種多様なタスクにわたる高次元の連続制御を学習するためのエンドツーエンドのパイプラインを提示するこの種の最初の調査です。

要約(オリジナル)

Learning effective continuous control policies in high-dimensional systems, including musculoskeletal agents, remains a significant challenge. Over the course of biological evolution, organisms have developed robust mechanisms for overcoming this complexity to learn highly sophisticated strategies for motor control. What accounts for this robust behavioral flexibility? Modular control via muscle synergies, i.e. coordinated muscle co-contractions, is considered to be one putative mechanism that enables organisms to learn muscle control in a simplified and generalizable action space. Drawing inspiration from this evolved motor control strategy, we use physiologically accurate human hand and leg models as a testbed for determining the extent to which a Synergistic Action Representation (SAR) acquired from simpler tasks facilitates learning more complex tasks. We find in both cases that SAR-exploiting policies significantly outperform end-to-end reinforcement learning. Policies trained with SAR were able to achieve robust locomotion on a wide set of terrains with high sample efficiency, while baseline approaches failed to learn meaningful behaviors. Additionally, policies trained with SAR on a multiobject manipulation task significantly outperformed (>70% success) baseline approaches (<20% success). Both of these SAR-exploiting policies were also found to generalize zero-shot to out-of-domain environmental conditions, while policies that did not adopt SAR failed to generalize. Finally, we establish the generality of SAR on broader high-dimensional control problems using a robotic manipulation task set and a full-body humanoid locomotion task. To the best of our knowledge, this investigation is the first of its kind to present an end-to-end pipeline for discovering synergies and using this representation to learn high-dimensional continuous control across a wide diversity of tasks.

arxiv情報

著者 Cameron Berg,Vittorio Caggiano,Vikash Kumar
発行日 2023-07-14 05:35:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク