From Foresight to Forethought: VLM-In-the-Loop Policy Steering via Latent Alignment

要約

生成的ロボットポリシーは、デモンストレーションから複雑でマルチモーダルの行動を学習することに大きな可能性を示していますが、展開時間には依然として多様な障害を示しています。
ポリシーステアリングは、外部検証剤を使用して不完全な生成ポリシーによって提案された低レベルのアクションから選択することにより、失敗の可能性を減らすためのエレガントなソリューションを提供します。
ここでは、Vision Language Model(VLM)を検証剤として使用し、オープンワールドの推論機能を活用することを望んでいます。
ただし、既製のVLMは、VLMがトレーニングされたテキストと画像とは根本的に異なる表現されているため、低レベルのロボットアクションの結果を理解するのに苦労しています。
これに対応して、ランタイムポリシーステアリングのオープンボキャブラリー検証剤としてのVLMの可能性を解き放つための新しいフレームワークであるForewarnを提案します。
私たちの重要なアイデアは、VLMの行動結果(先見性)を評価(先見の明)を予測するという負担を切り離すことです。
先見の明の場合、潜在的な世界モデルを活用して、多様な低レベルのアクションプランが与えられた将来の潜在状態を想像します。
先見の明のあるために、VLMをこれらの予測される潜在状態と並べて、そのネイティブ表現(自然言語)における行動の結果について推論し、提案された計画を効果的にフィルタリングします。
多様なロボット操作タスクを介したフレームワークを検証し、代表的なギャップを橋渡しし、堅牢で一般化可能なポリシーステアリングを提供する能力を実証します。
ビデオはプロジェクトWebサイト:https://yilin-wu98.github.io/forewarn/にあります。

要約(オリジナル)

While generative robot policies have demonstrated significant potential in learning complex, multimodal behaviors from demonstrations, they still exhibit diverse failures at deployment-time. Policy steering offers an elegant solution to reducing the chance of failure by using an external verifier to select from low-level actions proposed by an imperfect generative policy. Here, one might hope to use a Vision Language Model (VLM) as a verifier, leveraging its open-world reasoning capabilities. However, off-the-shelf VLMs struggle to understand the consequences of low-level robot actions as they are represented fundamentally differently than the text and images the VLM was trained on. In response, we propose FOREWARN, a novel framework to unlock the potential of VLMs as open-vocabulary verifiers for runtime policy steering. Our key idea is to decouple the VLM’s burden of predicting action outcomes (foresight) from evaluation (forethought). For foresight, we leverage a latent world model to imagine future latent states given diverse low-level action plans. For forethought, we align the VLM with these predicted latent states to reason about the consequences of actions in its native representation–natural language–and effectively filter proposed plans. We validate our framework across diverse robotic manipulation tasks, demonstrating its ability to bridge representational gaps and provide robust, generalizable policy steering. Videos can be found on the project website: https://yilin-wu98.github.io/forewarn/.

arxiv情報

著者 Yilin Wu,Ran Tian,Gokul Swamy,Andrea Bajcsy
発行日 2025-02-11 03:00:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク