Where on Earth Do Users Say They Are?: Geo-Entity Linking for Noisy Multilingual User Input

要約

地理エンティティのリンクは、場所の言及を現実世界の地理的場所にリンクするタスクです。
この論文では、ノイズの多い多言語ソーシャル メディア データの地理エンティティ リンクという困難なタスクを検討します。
利用可能なオープンソースの多言語地理実体リンク ツールはほとんどなく、既存のものは多くの場合、ソーシャル メディア設定で簡単に壊れてしまうルールベースか、大規模なデータセットには高価すぎる LLM ベースです。
我々は、ラベル付けされたユーザー入力の場所名からの平均化された埋め込みとして現実世界の場所を表現し、解釈可能な信頼スコアを介して選択的な予測を可能にする方法を提案します。
私たちのアプローチにより、グローバルかつ多言語のソーシャル メディア データセット上の地理エンティティのリンクが改善されることを示し、さまざまな地理的粒度での評価の進歩と問題について説明します。

要約(オリジナル)

Geo-entity linking is the task of linking a location mention to the real-world geographic location. In this paper we explore the challenging task of geo-entity linking for noisy, multilingual social media data. There are few open-source multilingual geo-entity linking tools available and existing ones are often rule-based, which break easily in social media settings, or LLM-based, which are too expensive for large-scale datasets. We present a method which represents real-world locations as averaged embeddings from labeled user-input location names and allows for selective prediction via an interpretable confidence score. We show that our approach improves geo-entity linking on a global and multilingual social media dataset, and discuss progress and problems with evaluating at different geographic granularities.

arxiv情報

著者 Tessa Masis,Brendan O’Connor
発行日 2024-04-29 15:18:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク