Stabilizing Reinforcement Learning in Differentiable Multiphysics Simulation

要約

GPU ベースの並列シミュレーションの最近の進歩により、実践者は大量のデータを収集し、深層強化学習 (RL) を使用して複雑な制御ポリシーを汎用 GPU でトレーニングできるようになりました。
ただし、ロボット工学における RL のこのような成功は、高速剛体ダイナミクスによって十分にシミュレートされたタスクに限定されていました。
ソフト ボディのシミュレーション技術は比較的数桁遅いため、サンプルの複雑さの要件により RL の使用が制限されます。
この課題に対処するために、この論文では、剛体と変形可能物を含むタスクで RL のスケーリングを可能にする新しい RL アルゴリズムとシミュレーション プラットフォームの両方を紹介します。
我々は、最大エントロピー一次モデルベースのアクタークリティック RL アルゴリズムであるソフト分析ポリシー最適化 (SAPO) を導入します。これは、微分可能シミュレーションからの一次解析勾配を使用して、期待されるリターンとエントロピーを最大化するように確率的アクターをトレーニングします。
私たちのアプローチと並行して、剛体を超えたさまざまな材料のシミュレーションをサポートする並列微分可能なマルチフィジックス シミュレーション プラットフォームである Rewarped を開発しています。
Rewarped で困難な操作および移動タスクを再実装し、剛体、関節、変形可能物の間の相互作用を含むさまざまなタスクにわたって SAPO がベースラインを上回るパフォーマンスを示すことを示します。

要約(オリジナル)

Recent advances in GPU-based parallel simulation have enabled practitioners to collect large amounts of data and train complex control policies using deep reinforcement learning (RL), on commodity GPUs. However, such successes for RL in robotics have been limited to tasks sufficiently simulated by fast rigid-body dynamics. Simulation techniques for soft bodies are comparatively several orders of magnitude slower, thereby limiting the use of RL due to sample complexity requirements. To address this challenge, this paper presents both a novel RL algorithm and a simulation platform to enable scaling RL on tasks involving rigid bodies and deformables. We introduce Soft Analytic Policy Optimization (SAPO), a maximum entropy first-order model-based actor-critic RL algorithm, which uses first-order analytic gradients from differentiable simulation to train a stochastic actor to maximize expected return and entropy. Alongside our approach, we develop Rewarped, a parallel differentiable multiphysics simulation platform that supports simulating various materials beyond rigid bodies. We re-implement challenging manipulation and locomotion tasks in Rewarped, and show that SAPO outperforms baselines over a range of tasks that involve interaction between rigid bodies, articulations, and deformables.

arxiv情報

著者 Eliot Xing,Vernon Luk,Jean Oh
発行日 2024-12-16 18:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク