Learning Free Terminal Time Optimal Closed-loop Control of Manipulators

要約

この論文では、ロボット操作タスクのための自由終了時間閉ループ制御を学習するための新しいアプローチを紹介し、タスク期間と制御入力を動的に調整してパフォーマンスを向上させることができます。
教師あり学習アプローチ、つまり選択された最適な開ループ問題を解決し、それらをポリシー ネットワークのトレーニング データとして利用するアプローチを、自由終了時間シナリオまで拡張します。
この拡張機能では 3 つの主要な課題が解決されています。
まず、時間の離散化を段階的に改良することで、解の品質を向上させ、開ループ ソルバーの成功率を高めるマーチング スキームを導入します。
2 番目に、nakamura-zimmerer らの QRnet を拡張します。
(2021b) 不連続性に対処し、ターミナル状態での安定性を向上させるために、ターミナルの自由時間設定を変更しました。
第三に、トレーニング データセットを適応的に更新し、その品質を大幅に向上させる、以前の研究 (Zhang et al., 2022) の初期値問題 (IVP) 強化サンプリング法のより自動化されたバージョンを紹介します。
これらの技術を統合することで、さまざまな最適期間で広範な領域にわたって効果的に運用する閉ループ ポリシーを開発し、ほぼ世界的に最適な総コストを達成します。

要約(オリジナル)

This paper presents a novel approach to learning free terminal time closed-loop control for robotic manipulation tasks, enabling dynamic adjustment of task duration and control inputs to enhance performance. We extend the supervised learning approach, namely solving selected optimal open-loop problems and utilizing them as training data for a policy network, to the free terminal time scenario. Three main challenges are addressed in this extension. First, we introduce a marching scheme that enhances the solution quality and increases the success rate of the open-loop solver by gradually refining time discretization. Second, we extend the QRnet in Nakamura-Zimmerer et al. (2021b) to the free terminal time setting to address discontinuity and improve stability at the terminal state. Third, we present a more automated version of the initial value problem (IVP) enhanced sampling method from previous work (Zhang et al., 2022) to adaptively update the training dataset, significantly improving its quality. By integrating these techniques, we develop a closed-loop policy that operates effectively over a broad domain with varying optimal time durations, achieving near globally optimal total costs.

arxiv情報

著者 Wei Hu,Yue Zhao,Weinan E,Jiequn Han,Jihao Long
発行日 2023-11-29 15:53:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math.OC パーマリンク