Where Do We Go from Here? Multi-scale Allocentric Relational Inference from Natural Spatial Descriptions

要約

自然言語でルートを伝達する場合、{\em 獲得され​​た空間知識} の概念は、地理情報検索 (GIR) や空間認知研究にとって重要です。
しかし、NLP ナビゲーションの研究では、そのように獲得した知識がテキストの説明に及ぼす影響が見落とされることがよくあります。
現在のナビゲーション研究は、エージェントのローカル認識に対する推論を必要とする自己中心的なローカル記述 (例: 「右側にあります」) に焦点を当てています。
これらの指示は通常、一連のステップとして与えられ、各アクションステップには明示的に言及され、その後にエージェントが正しい道を進んでいることを確認するために使用できるランドマークが続きます (例: 「右に曲がれば見えます。」)
.’)。
対照的に、地図を通じて得た知識に基づく説明は、環境の全体像を提供し、その全体構造を把握します。
これらの指示 (例: 「ここはセントラルパークの南で、警察署の 1 ブロック北です」) は通常、連続的ではなく、明示的な検証なしに、複数の空間関係と暗黙のアクションを含む他中心的な関係が含まれています。
このペーパーでは、Rendezvous (RVS) タスクとデータセットを紹介します。これには、地図知識を使用して目的の場所に到達するための英語の地理空間指示の 10,404 例が含まれています。
私たちの分析により、RVS は空間的な他動中心関係をより豊富に使用しており、以前のテキストベースのナビゲーション ベンチマークと比較して、より多くの空間関係を同時に解決する必要があることが明らかになりました。

要約(オリジナル)

When communicating routes in natural language, the concept of {\em acquired spatial knowledge} is crucial for geographic information retrieval (GIR) and in spatial cognitive research. However, NLP navigation studies often overlook the impact of such acquired knowledge on textual descriptions. Current navigation studies concentrate on egocentric local descriptions (e.g., `it will be on your right’) that require reasoning over the agent’s local perception. These instructions are typically given as a sequence of steps, with each action-step explicitly mentioning and being followed by a landmark that the agent can use to verify they are on the right path (e.g., `turn right and then you will see…’). In contrast, descriptions based on knowledge acquired through a map provide a complete view of the environment and capture its overall structure. These instructions (e.g., `it is south of Central Park and a block north of a police station’) are typically non-sequential, contain allocentric relations, with multiple spatial relations and implicit actions, without any explicit verification. This paper introduces the Rendezvous (RVS) task and dataset, which includes 10,404 examples of English geospatial instructions for reaching a target location using map-knowledge. Our analysis reveals that RVS exhibits a richer use of spatial allocentric relations, and requires resolving more spatial relations simultaneously compared to previous text-based navigation benchmarks.

arxiv情報

著者 Tzuf Paz-Argaman,Sayali Kulkarni,John Palowitch,Jason Baldridge,Reut Tsarfaty
発行日 2024-02-26 07:33:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.MM パーマリンク