要約
サンプリングに基づくモデル予測制御(MPC)は、非線形で接触が多いロボットタスクにおいて強力な性能を発揮しますが、局所的に貪欲なサンプリングスキームによる探索性の低さに悩まされることがよくあります。我々は、構造化されたテンソルサンプリングを通して高エントロピー制御軌道生成を導入する、新しいサンプリングベースのMPCフレームワークである୧Model Tensor Planning(MTP)を提案する。ランダム化された多部位グラフ上でサンプリングを行い、Bスプラインと秋間スプラインを用いて制御軌道を補間することにより、MTPは滑らかで大域的に多様な制御候補を保証する。さらに、Cross-Entropy Method (CEM)更新の中で、制御の洗練と探索のバランスをとりながら、局所的な探索的サンプルと大域的な探索的サンプルを混合する、単純な$β$混合戦略を提案する。理論的には、MTPがテンソルの深さと幅が無限大の極限において、制御軌道空間の漸近的なパスカバレッジと最大エントロピーを達成することを示す。 我々の実装は、JAXを用いて完全にベクトル化され、MuJoCo XLAと互換性があり、オンライン領域ランダム化を伴うリアルタイム制御のためのJIT(Just-in-time)コンパイルとバッチロールアウトをサポートする。器用な手先の操作からヒューマノイドのロコモーションまで、様々な困難なロボットタスクの実験を通じて、MTPがタスクの成功と制御の頑健性において標準的なMPCと進化戦略ベースラインを上回ることを実証する。MTPのテンソルサンプリング構造、スプライン補間の選択、およびミキシング戦略の有効性は、設計および感度解析によって確認された。全体として、MTPはモデルベースのプランニングと制御におけるロバスト探索のためのスケーラブルなフレームワークを提供する。
要約(オリジナル)
Sampling-based model predictive control (MPC) offers strong performance in nonlinear and contact-rich robotic tasks, yet often suffers from poor exploration due to locally greedy sampling schemes. We propose \emph{Model Tensor Planning} (MTP), a novel sampling-based MPC framework that introduces high-entropy control trajectory generation through structured tensor sampling. By sampling over randomized multipartite graphs and interpolating control trajectories with B-splines and Akima splines, MTP ensures smooth and globally diverse control candidates. We further propose a simple $\beta$-mixing strategy that blends local exploitative and global exploratory samples within the modified Cross-Entropy Method (CEM) update, balancing control refinement and exploration. Theoretically, we show that MTP achieves asymptotic path coverage and maximum entropy in the control trajectory space in the limit of infinite tensor depth and width. Our implementation is fully vectorized using JAX and compatible with MuJoCo XLA, supporting \emph{Just-in-time} (JIT) compilation and batched rollouts for real-time control with online domain randomization. Through experiments on various challenging robotic tasks, ranging from dexterous in-hand manipulation to humanoid locomotion, we demonstrate that MTP outperforms standard MPC and evolutionary strategy baselines in task success and control robustness. Design and sensitivity ablations confirm the effectiveness of MTP tensor sampling structure, spline interpolation choices, and mixing strategy. Altogether, MTP offers a scalable framework for robust exploration in model-based planning and control.
arxiv情報
| 著者 | An T. Le,Khai Nguyen,Minh Nhat Vu,João Carvalho,Jan Peters |
| 発行日 | 2025-05-02 07:09:38+00:00 |
| arxivサイト | arxiv_id(pdf) |