Quantitative Information Extraction from Humanitarian Documents

要約

人道活動には、大量の報告書、要約、ニュース、その他の文書が伴います。
その活動をガイドするには、重要な情報をそのようなフリーテキストのリソースから迅速に抽出する必要があります。
影響を受けた人の数、配布された援助の量、インフラストラクチャーの被害の程度などの数値は、緊急対応と事前の行動の中心となります。
この研究では、そのような定量的情報を抽出するために、人道領域の注釈付きデータセットと、それが参照する単位、修飾子、関連するイベントなどの重要なコンテキストを提供します。
さらに、カスタムの自然言語処理パイプラインを開発して、単位とともに量を抽出し、ベースラインや最近の文献と比較して評価します。
提案されたモデルは、特にドミニカ共和国と一部のアフリカ諸国に関連する文書において、一貫したパフォーマンスの向上を実現します。
私たちは、人道的領域のための NLP ツールの改善を継続するために、データセットとコードを研究コミュニティに利用できるようにしています。

要約(オリジナル)

Humanitarian action is accompanied by a mass of reports, summaries, news, and other documents. To guide its activities, important information must be quickly extracted from such free-text resources. Quantities, such as the number of people affected, amount of aid distributed, or the extent of infrastructure damage, are central to emergency response and anticipatory action. In this work, we contribute an annotated dataset for the humanitarian domain for the extraction of such quantitative information, along side its important context, including units it refers to, any modifiers, and the relevant event. Further, we develop a custom Natural Language Processing pipeline to extract the quantities alongside their units, and evaluate it in comparison to baseline and recent literature. The proposed model achieves a consistent improvement in the performance, especially in the documents pertaining to the Dominican Republic and select African countries. We make the dataset and code available to the research community to continue the improvement of NLP tools for the humanitarian domain.

arxiv情報

著者 Daniele Liberatore,Kyriaki Kalimeri,Derya Sever,Yelena Mejova
発行日 2024-08-09 08:46:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク