要約
中国語の地理的再順位付けタスクは、検索された候補の中から最も関連性の高い住所を見つけることを目的としており、これはナビゲーションマップなどの位置関連サービスにとって極めて重要である。一般的な文章とは異なり、地理的文脈は、一般的な範囲(例えば、省)から特定の範囲(例えば、道路)に至るまで、地理的概念と密接に絡み合っている。この特徴を踏まえ、我々は中国の地理的セマンティクスをより効果的に再ランキングパイプラインに統合するための革新的なフレームワーク、すなわちGeo-Encoderを提案する。我々の方法論は、まず、テキストを地理的スパンに関連付けるために市販のツールを採用し、それらをチャンキング単位として扱う。次に、マルチタスク学習モジュールを提示し、チャンクの余分な意味表現への寄与を決定する効果的な注意行列を同時に獲得する。さらに、特定のチャンクに効果的に注目できるモデルを導くことを目的として、提案する追加タスクの非同期更新メカニズムを提案する。中国の2つの異なる地理的再ランキングデータセットを用いた実験により、Geo-Encoderは最先端のベースラインと比較して有意な改善を達成することが示された。特に、MGEO-BERTのHit@1スコアが大幅に改善され、GeoTESデータセットでは62.76から68.98へと6.22%増加した。
要約(オリジナル)
Chinese geographic re-ranking task aims to find the most relevant addresses among retrieved candidates, which is crucial for location-related services such as navigation maps. Unlike the general sentences, geographic contexts are closely intertwined with geographical concepts, from general spans (e.g., province) to specific spans (e.g., road). Given this feature, we propose an innovative framework, namely Geo-Encoder, to more effectively integrate Chinese geographical semantics into re-ranking pipelines. Our methodology begins by employing off-the-shelf tools to associate text with geographical spans, treating them as chunking units. Then, we present a multi-task learning module to simultaneously acquire an effective attention matrix that determines chunk contributions to extra semantic representations. Furthermore, we put forth an asynchronous update mechanism for the proposed addition task, aiming to guide the model capable of effectively focusing on specific chunks. Experiments on two distinct Chinese geographic re-ranking datasets, show that the Geo-Encoder achieves significant improvements when compared to state-of-the-art baselines. Notably, it leads to a substantial improvement in the Hit@1 score of MGEO-BERT, increasing it by 6.22% from 62.76 to 68.98 on the GeoTES dataset.
arxiv情報
著者 | Yong Cao,Ruixue Ding,Boli Chen,Xianzhi Li,Min Chen,Daniel Hershcovich,Pengjun Xie,Fei Huang |
発行日 | 2024-02-02 14:15:32+00:00 |
arxivサイト | arxiv_id(pdf) |