要約
強化学習 (RL) と軌道最適化 (TO) は、強力な補完的な利点を示します。
一方では、RL アプローチはグローバル制御ポリシーをデータから直接学習できますが、一般に、実行可能なポリシーに適切に収束するには大きなサンプル サイズが必要です。
一方、TO メソッドは、シミュレーターから抽出された勾配ベースの情報を活用して、解の近くでのみ有効な局所的に最適な制御軌道にすばやく収束させることができます。
過去 10 年間、いくつかのアプローチは、2 つのクラスの方法を適切に組み合わせて、両方の利点を最大限に活用することを目的としてきました。
この一連の研究に続いて、私たちはこれらのアプローチに加えて、グローバル制御ポリシーをより迅速に学習するためのいくつかの改善を提案します。特に、ソボレフ学習による TO メソッドから生じる感度情報と、TO とポリシー学習の間のコンセンサスを強制する拡張ラグランジュ手法を活用することによります。
.
文献の既存のアプローチと比較することにより、ロボット工学のさまざまな古典的なタスクに対するこれらの改善の利点を評価します。
要約(オリジナル)
Reinforcement learning (RL) and trajectory optimization (TO) present strong complementary advantages. On one hand, RL approaches are able to learn global control policies directly from data, but generally require large sample sizes to properly converge towards feasible policies. On the other hand, TO methods are able to exploit gradient-based information extracted from simulators to quickly converge towards a locally optimal control trajectory which is only valid within the vicinity of the solution. Over the past decade, several approaches have aimed to adequately combine the two classes of methods in order to obtain the best of both worlds. Following on from this line of research, we propose several improvements on top of these approaches to learn global control policies quicker, notably by leveraging sensitivity information stemming from TO methods via Sobolev learning, and augmented Lagrangian techniques to enforce the consensus between TO and policy learning. We evaluate the benefits of these improvements on various classical tasks in robotics through comparison with existing approaches in the literature.
arxiv情報
著者 | Quentin Le Lidec,Wilson Jallet,Ivan Laptev,Cordelia Schmid,Justin Carpentier |
発行日 | 2023-02-16 15:13:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google