DKPROMPT: Domain Knowledge Prompting Vision-Language Models for Open-World Planning

要約

ビジョン言語モデル (VLM) は、ロボットのタスク計画の問題に適用されており、ロボットは自然言語でタスクを受け取り、視覚入力に基づいて計画を生成します。
現在の VLM は強力な視覚言語理解能力を実証していますが、そのパフォーマンスは計画タスクにおいてはまだ満足のいくものには程遠いです。
同時に、PDDL ベースなどの古典的なタスク プランナーは長期的なタスクの計画には優れていますが、予期せぬ状況がよくあるオープンワールドではうまく機能しません。
この論文では、DKPROMPT と呼ばれる新しいタスク計画および実行フレームワークを提案します。これは、オープンワールドでの古典的な計画のために PDDL のドメイン知識を使用して VLM プロンプトを自動化します。
定量的実験の結果は、DKPROMPT がタスク完了率において従来の計画、純粋な VLM ベース、および他のいくつかの競合ベースラインよりも優れていることを示しています。

要約(オリジナル)

Vision-language models (VLMs) have been applied to robot task planning problems, where the robot receives a task in natural language and generates plans based on visual inputs. While current VLMs have demonstrated strong vision-language understanding capabilities, their performance is still far from being satisfactory in planning tasks. At the same time, although classical task planners, such as PDDL-based, are strong in planning for long-horizon tasks, they do not work well in open worlds where unforeseen situations are common. In this paper, we propose a novel task planning and execution framework, called DKPROMPT, which automates VLM prompting using domain knowledge in PDDL for classical planning in open worlds. Results from quantitative experiments show that DKPROMPT outperforms classical planning, pure VLM-based and a few other competitive baselines in task completion rate.

arxiv情報

著者 Xiaohan Zhang,Zainab Altaweel,Yohei Hayamizu,Yan Ding,Saeid Amiri,Hao Yang,Andy Kaminski,Chad Esselink,Shiqi Zhang
発行日 2024-06-25 15:49:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク