Towards Coarse-grained Visual Language Navigation Task Planning Enhanced by Event Knowledge Graph

要約

視覚言語ナビゲーション (VLN) は、身体化 AI における重要な研究の 1 つです。
これは、エージェントが周囲の環境を理解し、ナビゲーション タスクを完了できるようにすることを目的としています。
VLN 命令は、粒度の粗いコマンドと粒度の細かいコマンドに分類できます。
詳細なコマンドは、サブタスクを含むタスク全体を段階的に説明します。
対照的に、粗粒度のコマンドは抽象的なタスクの説明を与えるため、人間の習慣により適しています。
既存の研究のほとんどは、VLN タスクにおける前者の種類の指示に焦点を当てており、日常生活のシナリオに属する後者の抽象的な指示を無視しています。
抽象的な命令における上記の課題を克服するために、イベント知識の強化によって VLN での粗粒度の命令を検討することを試みます。
具体的には、まず、複数の主流ベンチマークデータセットにわたって統合的にVLNのイベントナレッジグラフ(VLN-EventKGと名付けられます)を抽出するためのプロンプトベースのフレームワークを提案します。
大規模な言語モデルと小規模な言語モデルのコラボレーションを通じて、粗粒度の命令入力による VLN タスクの知識を強化したナビゲーション プランニング (EventNav と呼ばれる) を実現します。
さらに、潜在的なエラーのアクション計画をリアルタイムで修正するための、新しい動的履歴バックトラッキング モジュールを設計します。
さまざまな公開ベンチマークでの実験結果は、私たちの知識強化手法が、私たちが提案した VLN-EventKG を使用した粗粒度命令 VLN において優れており、成功率が $5\%$ 以上向上していることを示しています。
私たちのプロジェクトは https://sites.google.com/view/vln-eventkg から入手できます。

要約(オリジナル)

Visual language navigation (VLN) is one of the important research in embodied AI. It aims to enable an agent to understand the surrounding environment and complete navigation tasks. VLN instructions could be categorized into coarse-grained and fine-grained commands. Fine-grained command describes a whole task with subtasks step-by-step. In contrast, coarse-grained command gives an abstract task description, which more suites human habits. Most existing work focuses on the former kind of instruction in VLN tasks, ignoring the latter abstract instructions belonging to daily life scenarios. To overcome the above challenge in abstract instruction, we attempt to consider coarse-grained instruction in VLN by event knowledge enhancement. Specifically, we first propose a prompt-based framework to extract an event knowledge graph (named VLN-EventKG) for VLN integrally over multiple mainstream benchmark datasets. Through small and large language model collaboration, we realize knowledge-enhanced navigation planning (named EventNav) for VLN tasks with coarse-grained instruction input. Additionally, we design a novel dynamic history backtracking module to correct potential error action planning in real time. Experimental results in various public benchmarks show our knowledge-enhanced method has superiority in coarse-grained-instruction VLN using our proposed VLN-EventKG with over $5\%$ improvement in success rate. Our project is available at https://sites.google.com/view/vln-eventkg

arxiv情報

著者 Zhao Kaichen,Song Yaoxian,Zhao Haiquan,Liu Haoyu,Li Tiefeng,Li Zhixu
発行日 2024-08-05 15:08:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.IR, cs.RO パーマリンク