要約
模倣学習(IL)を使用したモデル予測制御(MPC)の近似により、オンラインで高価な最適化の問題を解決せずに迅速な制御が可能になります。
ただし、単純なL2回帰セットアップでニューラルネットワークを使用する方法は、障害物などの数値ソルバーや非凸の制約によって発見されたローカルオプティマによって引き起こされるマルチモーダル(セット値)ソリューション分布を近似していないため、実際に近似MPCの適用性を大幅に制限します。
拡散モデルを使用して、高制御速度(1000 Hz以上)で完全なソリューション分布(つまり、すべてのモード)を正確に表すことにより、この問題を解決します。
この作業は、拡散ベースのAMPCが、マルチモーダルアクション分布のL2回帰ベースの近似MPCを大幅に上回ることを示しています。
ILでの以前のほとんどの作業とは対照的に、拡散ベースのコントローラーを、エンドエフェクター空間ではなく、より高い速度およびジョイント空間での実行にも焦点を当てています。
さらに、除去プロセス中にグラデーションガイダンスを使用して、ソリューション間の切り替えを防ぐために閉ループで同じモードを一貫して選択することを提案します。
拡散モデルからのソリューションの並行サンプリング中に、元のMPC問題のコストと制約の満足度を使用して、より良いモードをオンラインで選択することを提案します。
シミュレーションと250 Hzで展開されたハードウェアの両方で7-DOFロボットマニピュレーターの高速かつ正確な制御に関する方法を評価し、MPCの問題をオンラインで解決し、成功比の数値最適化(トレーニングに使用)を上回ると比較して70倍以上のスピードアップを達成します。
要約(オリジナル)
Approximating model predictive control (MPC) using imitation learning (IL) allows for fast control without solving expensive optimization problems online. However, methods that use neural networks in a simple L2-regression setup fail to approximate multi-modal (set-valued) solution distributions caused by local optima found by the numerical solver or non-convex constraints, such as obstacles, significantly limiting the applicability of approximate MPC in practice. We solve this issue by using diffusion models to accurately represent the complete solution distribution (i.e., all modes) at high control rates (more than 1000 Hz). This work shows that diffusion based AMPC significantly outperforms L2-regression-based approximate MPC for multi-modal action distributions. In contrast to most earlier work on IL, we also focus on running the diffusion-based controller at a higher rate and in joint space instead of end-effector space. Additionally, we propose the use of gradient guidance during the denoising process to consistently pick the same mode in closed loop to prevent switching between solutions. We propose using the cost and constraint satisfaction of the original MPC problem during parallel sampling of solutions from the diffusion model to pick a better mode online. We evaluate our method on the fast and accurate control of a 7-DoF robot manipulator both in simulation and on hardware deployed at 250 Hz, achieving a speedup of more than 70 times compared to solving the MPC problem online and also outperforming the numerical optimization (used for training) in success ratio.
arxiv情報
著者 | Pau Marquez Julbe,Julian Nubert,Henrik Hose,Sebastian Trimpe,Katherine J. Kuchenbecker |
発行日 | 2025-04-06 20:22:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google