Evolution and learning in differentiable robots

要約

ロボットの自動設計は 30 年前から存在していますが、連続的な微分不可能な設計評価、単純なボディやぎこちない動作への時期尚早な収束、物理マシンへの sim2real の転送の欠如によって制限されてきました。
したがって、ここでは大規模並列微分可能シミュレーションを使用して、大規模な候補ボディプラン全体にわたる動作の個々の神経制御を迅速かつ同時に最適化し、完全に最適化された動作のパフォーマンスに基づいて各デザインの適合性スコアを返します。
個体群内の各ロボットの機械的構造に対する微分不可能な変化(体の部分を再配置、結合、追加、または削除する突然変異)が、探索の外側ループで遺伝的アルゴリズムによって適用され、新しい形態の連続的な流れが生成されました。
勾配降下法によって磨かれた、高度に調整された優雅な動作を備えています。
これにより、ここでのロボットは独立したモーターの数の点で先行研究のものよりもはるかに複雑になる可能性があるにもかかわらず、これまでのすべての方法よりも数桁多くの設計を検討することが可能になりました。
私たちは、進化が「ますます差別化可能な」ロボット、つまり学習が機能する喪失状況を滑らかにし、それによってパフォーマンス行動に向けたより良いトレーニングパスを提供するボディプランを確実に生み出すことを発見しました。
最後に、シミュレーションで発見された高度に微分可能な形態の 1 つが物理ロボットとして実現され、その最適化された動作が維持されることが示されました。
これは、生物システムにおける進化と学習の関係を調査するためのサイバー物理学的プラットフォームを提供し、ロボットの物理的構造がロボットのポリシーを訓練する能力にどのように影響するかについての理解を広げます。
ビデオとコードは https://sites.google.com/view/eldir にあります。

要約(オリジナル)

The automatic design of robots has existed for 30 years but has been constricted by serial non-differentiable design evaluations, premature convergence to simple bodies or clumsy behaviors, and a lack of sim2real transfer to physical machines. Thus, here we employ massively-parallel differentiable simulations to rapidly and simultaneously optimize individual neural control of behavior across a large population of candidate body plans and return a fitness score for each design based on the performance of its fully optimized behavior. Non-differentiable changes to the mechanical structure of each robot in the population — mutations that rearrange, combine, add, or remove body parts — were applied by a genetic algorithm in an outer loop of search, generating a continuous flow of novel morphologies with highly-coordinated and graceful behaviors honed by gradient descent. This enabled the exploration of several orders-of-magnitude more designs than all previous methods, despite the fact that robots here have the potential to be much more complex, in terms of number of independent motors, than those in prior studies. We found that evolution reliably produces “increasingly differentiable” robots: body plans that smooth the loss landscape in which learning operates and thereby provide better training paths toward performant behaviors. Finally, one of the highly differentiable morphologies discovered in simulation was realized as a physical robot and shown to retain its optimized behavior. This provides a cyberphysical platform to investigate the relationship between evolution and learning in biological systems and broadens our understanding of how a robot’s physical structure can influence the ability to train policies for it. Videos and code at https://sites.google.com/view/eldir.

arxiv情報

著者 Luke Strgar,David Matthews,Tyler Hummer,Sam Kriegman
発行日 2024-05-23 15:45:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク