要約
強化学習とシミュレーションからリアルへの変換を組み合わせることで、脚式ロボットの移動コントローラーを開発するための一般的なフレームワークが提供されます。
現実世界での展開を成功させるために、ローパス フィルターや平滑化報酬などの平滑化手法がよく使用され、スムーズな動作を備えたポリシーが開発されます。
ただし、これらの手法は微分不可能であり、通常、大規模なハイパーパラメータのセットの面倒な調整が必要なため、ロボット プラットフォームごとに大規模な手動調整が必要になる傾向があります。
この課題に対処し、スムーズな動作を強制するための一般的な手法を確立するために、学習したポリシーにリプシッツ制約を課すシンプルで効果的な方法を提案します。これをリプシッツ制約ポリシー (LCP) と呼びます。
我々は、リプシッツ制約が勾配ペナルティの形で実装できることを示します。これにより、自動微分フレームワークに簡単に組み込むことができる微分可能な目的が提供されます。
私たちは、LCP が報酬の平滑化やローパス フィルターの必要性を効果的に置き換え、多くの異なるヒューマノイド ロボットのトレーニング フレームワークに簡単に統合できることを実証します。
当社はシミュレーションと現実世界の人型ロボットの両方で LCP を広範囲に評価し、スムーズで堅牢な移動コントローラーを作成します。
すべてのシミュレーションおよびデプロイメント コードと完全なチェックポイントは、プロジェクト ページ https://lipschitz-constrained-policy.github.io で入手できます。
要約(オリジナル)
Reinforcement learning combined with sim-to-real transfer offers a general framework for developing locomotion controllers for legged robots. To facilitate successful deployment in the real world, smoothing techniques, such as low-pass filters and smoothness rewards, are often employed to develop policies with smooth behaviors. However, because these techniques are non-differentiable and usually require tedious tuning of a large set of hyperparameters, they tend to require extensive manual tuning for each robotic platform. To address this challenge and establish a general technique for enforcing smooth behaviors, we propose a simple and effective method that imposes a Lipschitz constraint on a learned policy, which we refer to as Lipschitz-Constrained Policies (LCP). We show that the Lipschitz constraint can be implemented in the form of a gradient penalty, which provides a differentiable objective that can be easily incorporated with automatic differentiation frameworks. We demonstrate that LCP effectively replaces the need for smoothing rewards or low-pass filters and can be easily integrated into training frameworks for many distinct humanoid robots. We extensively evaluate LCP in both simulation and real-world humanoid robots, producing smooth and robust locomotion controllers. All simulation and deployment code, along with complete checkpoints, is available on our project page: https://lipschitz-constrained-policy.github.io.
arxiv情報
著者 | Zixuan Chen,Xialin He,Yen-Jen Wang,Qiayuan Liao,Yanjie Ze,Zhongyu Li,S. Shankar Sastry,Jiajun Wu,Koushil Sreenath,Saurabh Gupta,Xue Bin Peng |
発行日 | 2024-10-16 15:21:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google