要約
リアルタイム最適制御は、ロボット工学の基本的な課題である。代表的な軌道最適化アルゴリズムの1つである反復線形2次レギュレータ(iLQR)は、本質的に逐次的な計算の性質による制限に直面しており、ロボットシステムのリアルタイム制御の効率性と適用性を制限している。既存の並列実装は上記の制限を克服することを目的としているが、一般的に追加の計算反復と高性能ハードウェアを必要とし、実用的な改善はわずかである。本論文では、中間的なフィードバックとフィードフォワード行列を予測するために、アルゴリズムとハードウェアの協調設計戦略を採用したトランスフォーマアクセラレーションiLQRフレームワークであるQuattroを紹介する。これにより、精度を犠牲にすることなく、リソースに制約のあるデバイス上で効果的な並列計算が可能となる。カートポール・システムとクアドローター・システムでの実験では、アルゴリズム・レベルの加速が、反復あたりそれぞれ、最大5.3$times$と27$times$の値を示した。モデル予測制御(MPC)フレームワークに統合すると、Quattroは、従来のiLQRを適用したものと比較して、カートポールで2.8$times$、クアドローターで17.8$times$の全体的な高速化を達成する。Transformer推論は、性能を最大化するためにFPGA上に配置され、GPUより11$times$以上の電力削減と低いハードウェアリソースオーバーヘッドで、一般的な組み込みCPUよりさらに最大20.8$times$のスピードアップを達成する。
要約(オリジナル)
Real-time optimal control remains a fundamental challenge in robotics, especially for nonlinear systems with stringent performance requirements. As one of the representative trajectory optimization algorithms, the iterative Linear Quadratic Regulator (iLQR) faces limitations due to their inherently sequential computational nature, which restricts the efficiency and applicability of real-time control for robotic systems. While existing parallel implementations aim to overcome the above limitations, they typically demand additional computational iterations and high-performance hardware, leading to only modest practical improvements. In this paper, we introduce Quattro, a transformer-accelerated iLQR framework employing an algorithm-hardware co-design strategy to predict intermediate feedback and feedforward matrices. It facilitates effective parallel computations on resource-constrained devices without sacrificing accuracy. Experiments on cart-pole and quadrotor systems show an algorithm-level acceleration of up to 5.3$\times$ and 27$\times$ per iteration, respectively. When integrated into a Model Predictive Control (MPC) framework, Quattro achieves overall speedups of 2.8$\times$ for the cart-pole and 17.8$\times$ for the quadrotor compared to the one that applies traditional iLQR. Transformer inference is deployed on FPGA to maximize performance, achieving further up to 20.8$\times$ speedup over prevalent embedded CPUs with over 11$\times$ power reduction than GPU and low hardware resource overhead.
arxiv情報
著者 | Yue Wang,Haoyu Wang,Zhaoxing Li |
発行日 | 2025-04-03 23:57:47+00:00 |
arxivサイト | arxiv_id(pdf) |