From Foresight to Forethought: VLM-In-the-Loop Policy Steering via Latent Alignment

要約

生成的なロボット・ポリシーは、デモンストレーションから複雑なマルチモーダル行動を学習する上で大きな可能性を示してきたが、展開時にはまだ多様な失敗を示す。ポリシーステアリングは、不完全な生成ポリシーによって提案された低レベルの行動から選択するために外部の検証者を使用することによって、失敗の可能性を減らすためのエレガントなソリューションを提供します。ここで、検証者としてビジョン言語モデル(VLM)を使用し、そのオープンワールド推論機能を活用することを望むかもしれない。しかし、市販のVLMは、VLMが学習したテキストや画像とは基本的に異なる表現であるため、低レベルのロボット行動の結果を理解するのに苦労する。これに対し、我々はFOREWARNを提案する。FOREWARNは、実行時ポリシー・ステアリングのためのオープン・ボキャブラリー検証器として、VLMの潜在能力を引き出す新しいフレームワークである。我々の重要なアイデアは、VLMの負担である行動結果の予測(先見)と評価(先見)を切り離すことである。先見性については、潜在世界モデルを活用して、多様な低レベル行動計画が与えられた将来の潜在状態を想像する。予見については、VLMをこれらの予測された潜在状態に整合させ、本来の表現である自然言語で行動の結果を推論し、提案された計画を効果的にフィルタリングする。我々は、多様なロボット操作タスクにおいて我々のフレームワークを検証し、表現上のギャップを埋め、ロバストで一般化可能なポリシーステアリングを提供する能力を実証する。ビデオはプロジェクトのウェブサイトhttps://yilin-wu98.github.io/forewarn/。

要約(オリジナル)

While generative robot policies have demonstrated significant potential in learning complex, multimodal behaviors from demonstrations, they still exhibit diverse failures at deployment-time. Policy steering offers an elegant solution to reducing the chance of failure by using an external verifier to select from low-level actions proposed by an imperfect generative policy. Here, one might hope to use a Vision Language Model (VLM) as a verifier, leveraging its open-world reasoning capabilities. However, off-the-shelf VLMs struggle to understand the consequences of low-level robot actions as they are represented fundamentally differently than the text and images the VLM was trained on. In response, we propose FOREWARN, a novel framework to unlock the potential of VLMs as open-vocabulary verifiers for runtime policy steering. Our key idea is to decouple the VLM’s burden of predicting action outcomes (foresight) from evaluation (forethought). For foresight, we leverage a latent world model to imagine future latent states given diverse low-level action plans. For forethought, we align the VLM with these predicted latent states to reason about the consequences of actions in its native representation–natural language–and effectively filter proposed plans. We validate our framework across diverse robotic manipulation tasks, demonstrating its ability to bridge representational gaps and provide robust, generalizable policy steering. Videos can be found on the project website: https://yilin-wu98.github.io/forewarn/.

arxiv情報

著者 Yilin Wu,Ran Tian,Gokul Swamy,Andrea Bajcsy
発行日 2025-05-02 17:53:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO パーマリンク