CMNEE: A Large-Scale Document-Level Event Extraction Dataset based on Open-Source Chinese Military News

要約

イベントのトリガーや対応する議論を含む構造化されたイベントの知識を軍事文書から抽出することは、情報分析や意思決定支援などの多くのアプリケーションの基礎となります。
ただし、軍事分野でのイベント抽出はデータ不足の問題に直面しており、この問題がこの分野でのイベント抽出モデルの研究を妨げています。
この問題を軽減するために、私たちは大規模なドキュメントレベルのオープンソース中国軍事ニュースイベント抽出データセットである CMNEE を提案します。
これには 17,000 件の文書と 29,223 件のイベントが含まれており、これらはすべて、8 つのイベント タイプと 11 の引数の役割タイプを含む軍事ドメイン用の事前定義されたスキーマに基づいて手動で注釈が付けられています。
私たちは CMNEE の品質を保証するために 2 段階のマルチターン アノテーション戦略を設計し、体系的な評価を備えたいくつかの最先端のイベント抽出モデルを再現しました。
CMNEE での実験結果は、他のドメイン データセットでの実験結果よりも明らかに短く、これは軍事ドメインのイベント抽出には特有の課題があり、さらなる研究努力が必要であることを示しています。
コードとデータは https://github.com/Mzzzhu/CMNEE から入手できます。

要約(オリジナル)

Extracting structured event knowledge, including event triggers and corresponding arguments, from military texts is fundamental to many applications, such as intelligence analysis and decision assistance. However, event extraction in the military field faces the data scarcity problem, which impedes the research of event extraction models in this domain. To alleviate this problem, we propose CMNEE, a large-scale, document-level open-source Chinese Military News Event Extraction dataset. It contains 17,000 documents and 29,223 events, which are all manually annotated based on a pre-defined schema for the military domain including 8 event types and 11 argument role types. We designed a two-stage, multi-turns annotation strategy to ensure the quality of CMNEE and reproduced several state-of-the-art event extraction models with a systematic evaluation. The experimental results on CMNEE fall shorter than those on other domain datasets obviously, which demonstrates that event extraction for military domain poses unique challenges and requires further research efforts. Our code and data can be obtained from https://github.com/Mzzzhu/CMNEE.

arxiv情報

著者 Mengna Zhu,Zijie Xu,Kaisheng Zeng,Kaiming Xiao,Mao Wang,Wenjun Ke,Hongbin Huang
発行日 2024-04-18 15:02:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク