要約
この論文では、微分可能軌道最適化を介して制約付き視覚運動ポリシーを学習する手法である LeTO を紹介します。
私たちのアプローチは、微分可能な最適化層をニューラル ネットワークに独自に統合します。
最適化層を軌道最適化問題として定式化することで、追加のモジュールを使用せずに、モデルが安全かつ制御された方法でエンドツーエンドでアクションを生成できるようになります。
私たちの方法では、トレーニングプロセス中に制約情報を導入できるため、制約を満たす、軌道を滑らかにする、デモンストレーションによるエラーを最小限に抑えるというトレーニング目標のバランスがとれます。
この「グレー ボックス」手法は、最適化ベースの安全性と解釈可能性をニューラル ネットワークの強力な表現能力と組み合わせます。
LeTOをシミュレーションおよび実ロボット上で定量的に評価します。
シミュレーションでは、LeTO は最先端の模倣学習方法に匹敵する成功率を達成しますが、生成される軌道は不確実性が少なく、高品質でより滑らかです。
実際の実験では、制約が重要なタスクを処理するために LeTO を導入しました。
結果は、最先端の模倣学習アプローチと比較した LeTO の有効性を示しています。
コードは https://github.com/ZhengtongXu/LeTO でリリースされています。
要約(オリジナル)
This paper introduces LeTO, a method for learning constrained visuomotor policy via differentiable trajectory optimization. Our approach uniquely integrates a differentiable optimization layer into the neural network. By formulating the optimization layer as a trajectory optimization problem, we enable the model to end-to-end generate actions in a safe and controlled fashion without extra modules. Our method allows for the introduction of constraints information during the training process, thereby balancing the training objectives of satisfying constraints, smoothing the trajectories, and minimizing errors with demonstrations. This ‘gray box’ method marries the optimization-based safety and interpretability with the powerful representational abilities of neural networks. We quantitatively evaluate LeTO in simulation and on the real robot. In simulation, LeTO achieves a success rate comparable to state-of-the-art imitation learning methods, but the generated trajectories are of less uncertainty, higher quality, and smoother. In real-world experiments, we deployed LeTO to handle constraints-critical tasks. The results show the effectiveness of LeTO comparing with state-of-the-art imitation learning approaches. We release our code at https://github.com/ZhengtongXu/LeTO.
arxiv情報
著者 | Zhengtong Xu,Yu She |
発行日 | 2024-03-18 07:10:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google