VeriGraph: Scene Graphs for Execution Verifiable Robot Planning

要約

ビジョン言語モデル (VLM) の最近の進歩により、ロボットのタスク計画に可能性がもたらされていますが、VLM は誤ったアクション シーケンスを生成する傾向があるため、課題が残っています。
これらの制限に対処するために、アクションの実現可能性を検証しながらロボット計画のために VLM を統合する新しいフレームワークである VeriGraph を提案します。
VeriGraph は、中間表現としてシーン グラフを採用し、主要なオブジェクトと空間関係をキャプチャして、計画の検証と改良を改善します。
このシステムは、入力画像からシーン グラフを生成し、それを使用して、LLM ベースのタスク プランナーによって生成されたアクション シーケンスを繰り返し確認および修正し、制約が尊重され、アクションが実行可能であることを確認します。
私たちのアプローチは、さまざまな操作シナリオ全体でタスクの完了率を大幅に向上させ、言語ベースのタスクでは 58%、画像ベースのタスクでは 30% ベースライン手法を上回ります。

要約(オリジナル)

Recent advancements in vision-language models (VLMs) offer potential for robot task planning, but challenges remain due to VLMs’ tendency to generate incorrect action sequences. To address these limitations, we propose VeriGraph, a novel framework that integrates VLMs for robotic planning while verifying action feasibility. VeriGraph employs scene graphs as an intermediate representation, capturing key objects and spatial relationships to improve plan verification and refinement. The system generates a scene graph from input images and uses it to iteratively check and correct action sequences generated by an LLM-based task planner, ensuring constraints are respected and actions are executable. Our approach significantly enhances task completion rates across diverse manipulation scenarios, outperforming baseline methods by 58% for language-based tasks and 30% for image-based tasks.

arxiv情報

著者 Daniel Ekpo,Mara Levy,Saksham Suri,Chuong Huynh,Abhinav Shrivastava
発行日 2024-11-15 18:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク