Leave no Place Behind: Improved Geolocation in Humanitarian Documents

要約

地理的位置は人道的対応の重要な要素であり、脆弱な人々、進行中の出来事、利用可能な資源の概要を示します。
自然言語処理の最新の開発は、人道支援部門によって作成された大量の報告書や文書から重要な情報を抽出するのに役立つ可能性があります。
ただし、既存の最先端の情報抽出ツールのパフォーマンスとバイアスは不明です。
この作業では、人気のある固有表現認識 (NER) ツールである Spacy と roBERTa を微調整して、人道的文書のジオタグ付けを実行するための注釈付きリソースを開発します。
次に、候補地を GeoNames データベースにリンクするジオコーディング方法 FeatureRank を提案します。
人道分野のデータは分類器のパフォーマンスを向上させるだけでなく (F1 = 0.92 まで)、西側諸国の場所を誤って優先する既存ツールのバイアスの一部も軽減することがわかりました。
したがって、既製の NER システムが人道分野での展開に適していることを確認するには、非西欧文書からのより多くのリソースが必要であると結論付けています。

要約(オリジナル)

Geographical location is a crucial element of humanitarian response, outlining vulnerable populations, ongoing events, and available resources. Latest developments in Natural Language Processing may help in extracting vital information from the deluge of reports and documents produced by the humanitarian sector. However, the performance and biases of existing state-of-the-art information extraction tools are unknown. In this work, we develop annotated resources to fine-tune the popular Named Entity Recognition (NER) tools Spacy and roBERTa to perform geotagging of humanitarian texts. We then propose a geocoding method FeatureRank which links the candidate locations to the GeoNames database. We find that not only does the humanitarian-domain data improves the performance of the classifiers (up to F1 = 0.92), but it also alleviates some of the bias of the existing tools, which erroneously favor locations in the Western countries. Thus, we conclude that more resources from non-Western documents are necessary to ensure that off-the-shelf NER systems are suitable for the deployment in the humanitarian sector.

arxiv情報

著者 Enrico M. Belliardo,Kyriaki Kalimeri,Yelena Mejova
発行日 2023-09-06 11:20:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク