Grounding Classical Task Planners via Vision-Language Models

要約

従来の計画システムは、ルールベースの人間の知識を利用してサービス ロボットの正確な計画を計算する点で大きな進歩を示してきましたが、完璧な認識とアクションの実行という強い前提があるため、課題に直面しています。
これらの課題に取り組むための 1 つの解決策は、古典的なプランナーによって生成された象徴的な状態と行動をロボットの感覚観察に結び付けて、知覚と行動のループを閉じることです。
この研究では、ビジョン言語モデル (VLM) を活用してアクションの失敗を検出し、計画の成功を可能にするためのアクション アフォーダンスを検証する、TPVQA という視覚に基づいた計画フレームワークを提案します。
定量的実験の結果は、TPVQA がタスク完了率において以前の研究の競合ベースラインを上回っていることを示しています。

要約(オリジナル)

Classical planning systems have shown great advances in utilizing rule-based human knowledge to compute accurate plans for service robots, but they face challenges due to the strong assumptions of perfect perception and action executions. To tackle these challenges, one solution is to connect the symbolic states and actions generated by classical planners to the robot’s sensory observations, thus closing the perception-action loop. This research proposes a visually-grounded planning framework, named TPVQA, which leverages Vision-Language Models (VLMs) to detect action failures and verify action affordances towards enabling successful plan execution. Results from quantitative experiments show that TPVQA surpasses competitive baselines from previous studies in task completion rate.

arxiv情報

著者 Xiaohan Zhang,Yan Ding,Saeid Amiri,Hao Yang,Andy Kaminski,Chad Esselink,Shiqi Zhang
発行日 2023-06-19 22:28:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク