要約
人間には、周囲の物体と意味的な関連付けを行う能力が備わっている。これにより、環境のメンタルマップを作成することができ、言語的な指示が与えられたときにオンデマンドでナビゲートすることができる。視覚言語ナビゲーション(VLN)研究の自然な目標は、同様の能力を自律型エージェントに付与することである。最近の研究では、ラベル付けされたデータなしに環境の意味空間地図表現を作成することで、この目標への一歩を踏み出している。しかし、それらの表現は、同じオブジェクトの異なるインスタンスを区別しないため、実用的な適用には限界がある。本研究では、コミュニティ検出アルゴリズムを用いて空間地図表現にインスタンスレベルの情報を統合し、大規模言語モデル(LLM)によって学習された単語オントロジーを利用して、マッピング表現においてオープンセット意味的関連付けを行うことで、この限界に対処する。その結果、インスタンス固有の記述を持つ現実的な言語コマンドにおいて、地図表現はベースラインと比較してナビゲーション性能を2倍(233%)向上させた。我々は、広範な定性的・定量的実験を通して、我々のアプローチの実用性と有効性を検証する。
要約(オリジナル)
Humans have a natural ability to perform semantic associations with the surrounding objects in the environment. This allows them to create a mental map of the environment, allowing them to navigate on-demand when given linguistic instructions. A natural goal in Vision Language Navigation (VLN) research is to impart autonomous agents with similar capabilities. Recent works take a step towards this goal by creating a semantic spatial map representation of the environment without any labeled data. However, their representations are limited for practical applicability as they do not distinguish between different instances of the same object. In this work, we address this limitation by integrating instance-level information into spatial map representation using a community detection algorithm and utilizing word ontology learned by large language models (LLMs) to perform open-set semantic associations in the mapping representation. The resulting map representation improves the navigation performance by two-fold (233%) on realistic language commands with instance-specific descriptions compared to the baseline. We validate the practicality and effectiveness of our approach through extensive qualitative and quantitative experiments.
arxiv情報
著者 | Laksh Nanwani,Anmol Agarwal,Kanishk Jain,Raghav Prabhakar,Aaron Monis,Aditya Mathur,Krishna Murthy,Abdul Hafez,Vineet Gandhi,K. Madhava Krishna |
発行日 | 2023-07-01 21:36:46+00:00 |
arxivサイト | arxiv_id(pdf) |