Prompting with the Future: Open-World Model Predictive Control with Interactive Digital Twins

要約

オープンワールドのロボット操作における最近の進歩は、主にビジョン言語モデル(VLM)によって推進されています。
これらのモデルは、高レベルの計画で強い一般化能力を示しますが、身体世界の理解が限られているため、低レベルのロボットコントロールを予測するのに苦労しています。
この問題に対処するために、VLMのセマンティック推論能力を、現実世界環境の物理的に接地されたインタラクティブなデジタル双子と組み合わせた、オープンワールド操作のモデル予測制御フレームワークを提案します。
デジタル双子を構築およびシミュレートすることにより、私たちのアプローチは実行可能な動きの軌跡を生成し、対応する結果をシミュレートし、将来の観察結果でVLMを促し、タスクの言語指示に基づいて最も適切な結果を評価および選択します。
ロボット制御の複雑なシーンを理解する際に事前に訓練されたVLMの能力をさらに強化するために、デジタルツインの柔軟なレンダリング機能を活用して、さまざまな小説のない視点でシーンを合成します。
複雑な操作タスクの多様なセットでアプローチを検証し、VLMSを使用した言語条件付きロボット制御のベースライン方法と比較して優れた性能を示します。

要約(オリジナル)

Recent advancements in open-world robot manipulation have been largely driven by vision-language models (VLMs). While these models exhibit strong generalization ability in high-level planning, they struggle to predict low-level robot controls due to limited physical-world understanding. To address this issue, we propose a model predictive control framework for open-world manipulation that combines the semantic reasoning capabilities of VLMs with physically-grounded, interactive digital twins of the real-world environments. By constructing and simulating the digital twins, our approach generates feasible motion trajectories, simulates corresponding outcomes, and prompts the VLM with future observations to evaluate and select the most suitable outcome based on language instructions of the task. To further enhance the capability of pre-trained VLMs in understanding complex scenes for robotic control, we leverage the flexible rendering capabilities of the digital twin to synthesize the scene at various novel, unoccluded viewpoints. We validate our approach on a diverse set of complex manipulation tasks, demonstrating superior performance compared to baseline methods for language-conditioned robotic control using VLMs.

arxiv情報

著者 Chuanruo Ning,Kuan Fang,Wei-Chiu Ma
発行日 2025-06-16 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク