要約
接触が多い操作の設定における強化学習 (RL) の経験的な成功は、モデルベースの観点から理解すべきことが多く残されています。主な問題は、多くの場合、(i) 接触モードの爆発、(ii) 硬いことに起因します。
、滑らかでない接触ダイナミクスと結果として生じる爆発/不連続勾配、および(iii)計画問題の非凸性。
接触モードを効果的にサンプリングおよび平均化することによる、RL アドレス (i) および (ii) の確率的性質。
一方、モデルベースの方法は、接触ダイナミクスを分析的に平滑化することにより、同じ課題に取り組んできました。
私たちの最初の貢献は、単純なシステムに対する 2 つの方法の理論的同等性を確立し、多くの複雑な例で定性的および経験的な同等性を提供することです。
(ii) をさらに軽減するために、私たちの 2 番目の貢献は、接触ダイナミクスの凸型、微分可能、準動的定式化です。
私たちの最終的な貢献は (iii) を解決します。ここでは、接触モードが平滑化によって抽象化されている場合、従来のサンプリング ベースのモーション プランニング アルゴリズムがグローバル プランニングに効果的であることを示します。
挑戦的な接触が豊富な操作タスクのコレクションに私たちの方法を適用して、効率的なモデルベースのモーションプランニングが劇的に少ない計算でRLに匹敵する結果を達成できることを示します。
ビデオ: https://youtu.be/12Ew4xC-VwA
要約(オリジナル)
The empirical success of Reinforcement Learning (RL) in the setting of contact-rich manipulation leaves much to be understood from a model-based perspective, where the key difficulties are often attributed to (i) the explosion of contact modes, (ii) stiff, non-smooth contact dynamics and the resulting exploding / discontinuous gradients, and (iii) the non-convexity of the planning problem. The stochastic nature of RL addresses (i) and (ii) by effectively sampling and averaging the contact modes. On the other hand, model-based methods have tackled the same challenges by smoothing contact dynamics analytically. Our first contribution is to establish the theoretical equivalence of the two methods for simple systems, and provide qualitative and empirical equivalence on a number of complex examples. In order to further alleviate (ii), our second contribution is a convex, differentiable and quasi-dynamic formulation of contact dynamics, which is amenable to both smoothing schemes, and has proven through experiments to be highly effective for contact-rich planning. Our final contribution resolves (iii), where we show that classical sampling-based motion planning algorithms can be effective in global planning when contact modes are abstracted via smoothing. Applying our method on a collection of challenging contact-rich manipulation tasks, we demonstrate that efficient model-based motion planning can achieve results comparable to RL with dramatically less computation. Video: https://youtu.be/12Ew4xC-VwA
arxiv情報
著者 | Tao Pang,H. J. Terry Suh,Lujie Yang,Russ Tedrake |
発行日 | 2023-02-28 04:06:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google