Into the Unknown: Generating Geospatial Descriptions for New Environments

要約

身体化されたナビゲーションのために視覚と言語の間のギャップを埋めることに焦点を当てた視覚と言語によるナビゲーション (VLN) タスクと同様に、新しいランデブー (RVS) タスクでは、ノンシーケンシャルを使用した他中心的な空間関係 (観察者の視点とは独立した) についての推論が必要です。
ナビゲーションの指示と地図。
ただし、トレーニング データのない新しい環境では、パフォーマンスが大幅に低下します。
座標と組み合わせたオープンソースの説明 (Wikipedia など) を使用すると、トレーニング データが提供されますが、空間指向のテキストが制限されるため、地理位置情報の解像度が低くなります。
私たちは、すぐに利用できる地理空間データを使用して、新しい環境向けの高品質の合成データを生成する大規模な拡張方法を提案します。
私たちの方法は、エンティティの関係を捉えて、根拠のある知識グラフを構築します。
サンプリングされたエンティティと関係 (「学校の北側で買い物」) は、(i) 特定のエンティティと関係を埋め込むために文脈自由文法 (CFG) を使用して多数のテンプレートを生成することにより、ナビゲーション命令を生成します。
(ii) 命令生成のためにエンティティと関係を大規模言語モデル (LLM) に入力します。
RVS の包括的な評価により、私たちのアプローチにより、目に見えない環境で 100 メートルの精度が 45.83% 向上することがわかりました。
さらに、CFG ベースの拡張でトレーニングされたモデルは、目に見えない環境と目に見える環境の両方で、LLM ベースの拡張でトレーニングされたモデルと比較して優れたパフォーマンスを達成することを実証します。
これらの発見は、これまで知られていなかったテキストベースの地理空間推論のための空間情報を明示的に構造化することの潜在的な利点が、データ不足のシナリオを解き放つ可能性があることを示唆しています。

要約(オリジナル)

Similar to vision-and-language navigation (VLN) tasks that focus on bridging the gap between vision and language for embodied navigation, the new Rendezvous (RVS) task requires reasoning over allocentric spatial relationships (independent of the observer’s viewpoint) using non-sequential navigation instructions and maps. However, performance substantially drops in new environments with no training data. Using opensource descriptions paired with coordinates (e.g., Wikipedia) provides training data but suffers from limited spatially-oriented text resulting in low geolocation resolution. We propose a large-scale augmentation method for generating high-quality synthetic data for new environments using readily available geospatial data. Our method constructs a grounded knowledge-graph, capturing entity relationships. Sampled entities and relations (`shop north of school’) generate navigation instructions via (i) generating numerous templates using context-free grammar (CFG) to embed specific entities and relations; (ii) feeding the entities and relation into a large language model (LLM) for instruction generation. A comprehensive evaluation on RVS, showed that our approach improves the 100-meter accuracy by 45.83% on unseen environments. Furthermore, we demonstrate that models trained with CFG-based augmentation achieve superior performance compared with those trained with LLM-based augmentation, both in unseen and seen environments. These findings suggest that the potential advantages of explicitly structuring spatial information for text-based geospatial reasoning in previously unknown, can unlock data-scarce scenarios.

arxiv情報

著者 Tzuf Paz-Argaman,John Palowitch,Sayali Kulkarni,Reut Tsarfaty,Jason Baldridge
発行日 2024-06-28 14:56:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク