Rethinking the Event Coding Pipeline with Prompt Entailment

要約

タイトル: プロンプトエンテイルメントを用いたイベントコーディングの再考
要約:
– 災害対策のため、ニュースから政治イベントを抽出することがある。
– 大量の非構造化テキストイベント説明のため、従来のcase-by-case分析は非現実的である。
– そのため、イベントを種類分類できることが必要である。これをイベントコーディングと呼ぶ。
– 新しいイベントコーディング手法「PR-ENT」を提案する。
– PR-ENTは柔軟性に優れ、リソース効率が良いことを特徴とする一方で、精度も維持できる。
– PR-ENTは、「Military injured two civilians」というイベント説明を、例えば「People were [Z]」のようなテンプレートで拡張し、そのスロットZを事前トレーニング(cloze)言語モデルで埋めることから始める。
– 次に、「Ijured, hurt…」のような選択肢Z*を、イベント説明を前提条件とし、埋め込まれたテンプレートを仮説としてテキストエンテイメントの課題で選択することによって選択する。
– これにより、ドメインの専門家は、提示されたラベル付きプロンプトと解釈可能なカテゴリを直接ドラフトすることができる。
– PR-ENTの有効性を複数の項目で検証:イベント説明やプロンプトテンプレートのやや変更など。

要約(オリジナル)

For monitoring crises, political events are extracted from the news. The large amount of unstructured full-text event descriptions makes a case-by-case analysis unmanageable, particularly for low-resource humanitarian aid organizations. This creates a demand to classify events into event types, a task referred to as event coding. Typically, domain experts craft an event type ontology, annotators label a large dataset and technical experts develop a supervised coding system. In this work, we propose PR-ENT, a new event coding approach that is more flexible and resource-efficient, while maintaining competitive accuracy: first, we extend an event description such as ‘Military injured two civilians” by a template, e.g. ‘People were [Z]’ and prompt a pre-trained (cloze) language model to fill the slot Z. Second, we select answer candidates Z* = {‘injured”, ‘hurt’…} by treating the event description as premise and the filled templates as hypothesis in a textual entailment task. This allows domain experts to draft the codebook directly as labeled prompts and interpretable answer candidates. This human-in-the-loop process is guided by our interactive codebook design tool. We evaluate PR-ENT in several robustness checks: perturbing the event description and prompt template, restricting the vocabulary and removing contextual information.

arxiv情報

著者 Clément Lefebvre,Niklas Stoehr
発行日 2023-05-05 11:47:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.HC, cs.LG パーマリンク