Leveraging Randomized Smoothing for Optimal Control of Nonsmooth Dynamical Systems

要約

差動動的計画法 (DDP) などの最適制御 (OC) アルゴリズムは、ダイナミクスの導関数を利用して物理システムを効率的に制御します。
しかし、滑らかでない力学システムが存在する場合、そのような種類のアルゴリズムは、たとえば力学の微分における不連続性の存在や有益でない勾配のために失敗する可能性があります。
逆に、強化学習 (RL) アルゴリズムは、滑らかでない効果 (接触、摩擦など) を示すシナリオでは、より良い経験結果を示しています。
私たちのアプローチは、ランダム化平滑化 (RS) に関する最近の研究を活用して、最適制御でよく遭遇する非平滑性の問題に取り組み、RS 法のプリズムを通じて RL と OC の間の相互作用に関する重要な洞察を提供します。
これにより、当然のことながら、非常にサンプル効率の高い方法で決定論的だが非滑らかなダイナミクスを考慮したランダム化差分動的計画法 (R-DDP) アルゴリズムを導入することになります。
実験は、私たちの方法が乾摩擦と摩擦接触を伴う古典的なロボットの問題を解決できることを示しています。この問題では、古典的な OC アルゴリズムは失敗する可能性が高く、RL アルゴリズムでは最適な解決策を見つけるために実際には法外な数のサンプルが必要です。

要約(オリジナル)

Optimal control (OC) algorithms such as Differential Dynamic Programming (DDP) take advantage of the derivatives of the dynamics to efficiently control physical systems. Yet, in the presence of nonsmooth dynamical systems, such class of algorithms are likely to fail due, for instance, to the presence of discontinuities in the dynamics derivatives or because of non-informative gradient. On the contrary, reinforcement learning (RL) algorithms have shown better empirical results in scenarios exhibiting non-smooth effects (contacts, frictions, etc). Our approach leverages recent works on randomized smoothing (RS) to tackle non-smoothness issues commonly encountered in optimal control, and provides key insights on the interplay between RL and OC through the prism of RS methods. This naturally leads us to introduce the randomized Differential Dynamic Programming (R-DDP) algorithm accounting for deterministic but non-smooth dynamics in a very sample-efficient way. The experiments demonstrate that our method is able to solve classic robotic problems with dry friction and frictional contacts, where classical OC algorithms are likely to fail and RL algorithms require in practice a prohibitive number of samples to find an optimal solution.

arxiv情報

著者 Quentin Le Lidec,Fabian Schramm,Louis Montaut,Cordelia Schmid,Ivan Laptev,Justin Carpentier
発行日 2024-01-22 14:31:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math.OC パーマリンク