Extracting Victim Counts from Text

要約

人道セクターの意思決定者は、危機的状況の際にタイムリーで正確な情報に依存しています。
地震で負傷した一般市民の数を知ることは、救援物資を適切に配置するために不可欠です。
このような被害者数に関する情報は、多くの場合、新聞やその他のレポートの全文のイベントの説明でのみ入手できます。
テキストから数値を抽出するのは困難です。数値にはさまざまな形式があり、数値の推論が必要になる場合があります。
これにより、純粋に文字列マッチングベースのアプローチでは不十分になります。
その結果、負傷者、避難民、または虐待を受けた犠牲者の詳細な数は、多くの場合、抽出されず、目に見えないままです。
犠牲者数の抽出を、回帰または分類の目的を持つ質問応答 (QA) タスクとしてキャストします。
正規表現、依存関係解析、セマンティック ロール ラベル付けベースのアプローチ、および高度なテキスト間モデルを比較します。
モデルの精度を超えて、この機密性の高いタスクの鍵となる抽出の信頼性と堅牢性を分析します。
特に、モデルのキャリブレーションについて説明し、少数ショットおよび分布外のパフォーマンスを調査します。
最終的に、さまざまな必要性とデータ ドメインに対してどのモデルを選択するかについて、包括的な推奨事項を作成します。
私たちの仕事は、計算能力に焦点を当てた大規模な言語モデルを現実世界のユースケースに適用し、プラスの影響を与えた最初の仕事の 1 つです。

要約(オリジナル)

Decision-makers in the humanitarian sector rely on timely and exact information during crisis events. Knowing how many civilians were injured during an earthquake is vital to allocate aids properly. Information about such victim counts is often only available within full-text event descriptions from newspapers and other reports. Extracting numbers from text is challenging: numbers have different formats and may require numeric reasoning. This renders purely string matching-based approaches insufficient. As a consequence, fine-grained counts of injured, displaced, or abused victims beyond fatalities are often not extracted and remain unseen. We cast victim count extraction as a question answering (QA) task with a regression or classification objective. We compare regex, dependency parsing, semantic role labeling-based approaches, and advanced text-to-text models. Beyond model accuracy, we analyze extraction reliability and robustness which are key for this sensitive task. In particular, we discuss model calibration and investigate few-shot and out-of-distribution performance. Ultimately, we make a comprehensive recommendation on which model to select for different desiderata and data domains. Our work is among the first to apply numeracy-focused large language models in a real-world use case with a positive impact.

arxiv情報

著者 Mian Zhong,Shehzaad Dhuliawala,Niklas Stoehr
発行日 2023-02-23 23:50:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 パーマリンク