Seeing is Believing: Belief-Space Planning with Foundation Models as Uncertainty Estimators

要約

オープンワールド環境における一般化可能なロボットの移動操作は、長い視野、複雑な目標、部分的な観測可能性などのために、大きな課題を提起する。これらの課題に対処するための有望なアプローチは、パラメータ化されたスキルのライブラリを用いた計画であり、タスクプランナは、シンボリックファクト上の論理式のような構造化言語で指定された目標を達成するために、これらのスキルをシーケンスする。視覚言語モデル(VLM)はこれらの式の根拠付けに使用できるが、しばしば完全な観測可能性を仮定するため、エージェントが事実を確実に評価するのに十分な情報がない場合、最適でない振る舞いにつながる。本稿では、VLMを知覚モジュールとして活用することで、不確実性を推定し、記号的な根拠付けを容易にする新しいフレームワークを紹介する。我々のアプローチは記号的な信念表現を構築し、戦略的な情報収集を組み込んだ不確実性を考慮した計画を生成するために信念空間プランナを用いる。これにより、エージェントは部分的な観測可能性と特性の不確実性を効果的に推論することができる。我々は、部分的に観測可能な環境における推論を必要とする、様々な困難な実世界タスクにおいて我々のシステムを実証した。シミュレーション評価により、我々のアプローチは、戦略的情報収集を計画し実行することで、バニラVLMベースのエンド・ツー・エンド計画やVLMベースの状態推定ベースラインの両方を凌駕することが示された。本研究は、不確実性を考慮したプランニングのような下流のタスクを可能にする、信念空間シンボリックシーン表現を構築するVLMの可能性を強調する。

要約(オリジナル)

Generalizable robotic mobile manipulation in open-world environments poses significant challenges due to long horizons, complex goals, and partial observability. A promising approach to address these challenges involves planning with a library of parameterized skills, where a task planner sequences these skills to achieve goals specified in structured languages, such as logical expressions over symbolic facts. While vision-language models (VLMs) can be used to ground these expressions, they often assume full observability, leading to suboptimal behavior when the agent lacks sufficient information to evaluate facts with certainty. This paper introduces a novel framework that leverages VLMs as a perception module to estimate uncertainty and facilitate symbolic grounding. Our approach constructs a symbolic belief representation and uses a belief-space planner to generate uncertainty-aware plans that incorporate strategic information gathering. This enables the agent to effectively reason about partial observability and property uncertainty. We demonstrate our system on a range of challenging real-world tasks that require reasoning in partially observable environments. Simulated evaluations show that our approach outperforms both vanilla VLM-based end-to-end planning or VLM-based state estimation baselines by planning for and executing strategic information gathering. This work highlights the potential of VLMs to construct belief-space symbolic scene representations, enabling downstream tasks such as uncertainty-aware planning.

arxiv情報

著者 Linfeng Zhao,Willie McClinton,Aidan Curtis,Nishanth Kumar,Tom Silver,Leslie Pack Kaelbling,Lawson L. S. Wong
発行日 2025-04-04 07:48:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO パーマリンク