Where on Earth Do Users Say They Are?: Geo-Entity Linking for Noisy Multilingual User Input


この論文では、ノイズの多い多言語ソーシャル メディア データの地理エンティティ リンクという困難なタスクを検討します。
利用可能なオープンソースの多言語地理実体リンク ツールはほとんどなく、既存のものは多くの場合、ソーシャル メディア設定で簡単に壊れてしまうルールベースか、大規模なデータセットには高価すぎる LLM ベースです。
私たちのアプローチにより、グローバルかつ多言語のソーシャル メディア データセット上の地理エンティティのリンクが改善されることを示し、さまざまな地理的粒度での評価の進歩と問題について説明します。


Geo-entity linking is the task of linking a location mention to the real-world geographic location. In this paper we explore the challenging task of geo-entity linking for noisy, multilingual social media data. There are few open-source multilingual geo-entity linking tools available and existing ones are often rule-based, which break easily in social media settings, or LLM-based, which are too expensive for large-scale datasets. We present a method which represents real-world locations as averaged embeddings from labeled user-input location names and allows for selective prediction via an interpretable confidence score. We show that our approach improves geo-entity linking on a global and multilingual social media dataset, and discuss progress and problems with evaluating at different geographic granularities.


著者 Tessa Masis,Brendan O’Connor
発行日 2024-04-29 15:18:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク