要約
モデル予測制御(MPC)は、予測モデルを活用して将来のシステム状態を推定し、それに応じて制御入力を最適化する広く採用された制御パラダイムです。
ただし、MPCは計画と制御に優れていますが、環境認識の能力が欠けており、複雑で構造化されていないシナリオの失敗につながります。
この制限に対処するために、Vision-Language Model Predictive Control(VLMPC)を紹介します。これは、MPCと視覚言語モデル(VLMS)の知覚力を統合するロボット操作計画フレームワークです。
VLMPCは、目標画像または言語命令を入力として取得し、VLMを活用して候補アクションシーケンスを生成する条件付きアクションサンプリングモジュールを使用します。
これらの候補者は、アクションに基づいて将来のフレームをシミュレートするビデオ予測モデルに供給されます。
さらに、拡張されたバリアントであるTraj-VLMPCを提案します。これにより、動画予測をモーション軌道の生成に置き換えて、精度を維持しながら計算の複雑さを減らします。
TRAJ-VLMPCは、候補アクションに条件付けられたモーションダイナミクスを推定し、長老タスクとリアルタイムアプリケーションのより効率的な代替品を提供します。
VLMPCとTRAJ-VLMPCの両方が、現在の観測とタスク入力の間のピクセルレベルと知識レベルの一貫性の両方をキャプチャするVLMベースの階層コスト関数を使用して、最適アクションシーケンスを選択します。
どちらのアプローチがパブリックベンチマークで既存の最先端の方法を上回り、さまざまな現実世界のロボット操作タスクで優れたパフォーマンスを達成することを実証します。
コードはhttps://github.com/ppjmchen/vlmpcで入手できます。
要約(オリジナル)
Model Predictive Control (MPC) is a widely adopted control paradigm that leverages predictive models to estimate future system states and optimize control inputs accordingly. However, while MPC excels in planning and control, it lacks the capability for environmental perception, leading to failures in complex and unstructured scenarios. To address this limitation, we introduce Vision-Language Model Predictive Control (VLMPC), a robotic manipulation planning framework that integrates the perception power of vision-language models (VLMs) with MPC. VLMPC utilizes a conditional action sampling module that takes a goal image or language instruction as input and leverages VLM to generate candidate action sequences. These candidates are fed into a video prediction model that simulates future frames based on the actions. In addition, we propose an enhanced variant, Traj-VLMPC, which replaces video prediction with motion trajectory generation to reduce computational complexity while maintaining accuracy. Traj-VLMPC estimates motion dynamics conditioned on the candidate actions, offering a more efficient alternative for long-horizon tasks and real-time applications. Both VLMPC and Traj-VLMPC select the optimal action sequence using a VLM-based hierarchical cost function that captures both pixel-level and knowledge-level consistency between the current observation and the task input. We demonstrate that both approaches outperform existing state-of-the-art methods on public benchmarks and achieve excellent performance in various real-world robotic manipulation tasks. Code is available at https://github.com/PPjmchen/VLMPC.
arxiv情報
著者 | Jiaming Chen,Wentao Zhao,Ziyu Meng,Donghui Mao,Ran Song,Wei Pan,Wei Zhang |
発行日 | 2025-04-07 16:13:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google