HeGeL: A Novel Dataset for Geo-Location from Hebrew Text

要約

テキストによる地理位置情報のタスク (自由形式の言語記述に基づいて場所の座標を取得する) には、グラウンディングだけでなく、自然言語の理解と地理空間的推論も必要です。
地理位置情報に使用される英語のデータセットは数多くありますが、それらは現在、オープンソース データ (Wikipedia および Twitter) に基づいており、記述されている場所の位置はほとんどが暗黙的に示されているため、位置取得の解像度は限られています。
さらに、ヘブライ語など、形態学的に豊富な言語とリソースに乏しい言語におけるテキストの地理位置情報の問題に対処するために利用できるデータセットはありません。
この論文では、文字通りの場所の説明を収集し、言語による地理空間推論を分析するために設計されたヘブライ語地理位置情報 (HeGeL) コーパスを紹介します。
私たちは、イスラエルの 3 つの都市のさまざまな種類の場所について、5,649 個の文字通りのヘブライ語の場所の説明をクラウドソーシングしました。
定性的および経験的分析により、データには地理空間推論が豊富に使用されており、新しい環境表現が必要であることが示されています。

要約(オリジナル)

The task of textual geolocation – retrieving the coordinates of a place based on a free-form language description – calls for not only grounding but also natural language understanding and geospatial reasoning. Even though there are quite a few datasets in English used for geolocation, they are currently based on open-source data (Wikipedia and Twitter), where the location of the described place is mostly implicit, such that the location retrieval resolution is limited. Furthermore, there are no datasets available for addressing the problem of textual geolocation in morphologically rich and resource-poor languages, such as Hebrew. In this paper, we present the Hebrew Geo-Location (HeGeL) corpus, designed to collect literal place descriptions and analyze lingual geospatial reasoning. We crowdsourced 5,649 literal Hebrew place descriptions of various place types in three cities in Israel. Qualitative and empirical analysis show that the data exhibits abundant use of geospatial reasoning and requires a novel environmental representation.

arxiv情報

著者 Tzuf Paz-Argaman,Tal Bauman,Itai Mondshine,Itzhak Omer,Sagi Dalyot,Reut Tsarfaty
発行日 2023-07-02 08:09:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク