GLEN: General-Purpose Event Detection for Thousands of Types

要約

イベント抽出研究の進歩は、広範囲をカバーする大規模なデータセットの欠如によって妨げられてきました。
イベント抽出システムをよりアクセスしやすくするために、私たちは汎用イベント検出データセット GLEN を構築しました。このデータセットは、3,465 種類の異なる 205,000 件のイベント言及をカバーしており、今日最大のイベント データセットよりもオントロジーが 20 倍以上大きくなっています。
GLEN は、Wikidata Qnode と PropBank ロールセット間のマッピングを提供する DWD オーバーレイを利用して作成されます。
これにより、PropBank の既存の豊富なアノテーションを遠隔監視として使用できるようになります。
さらに、GLEN の大きなオントロジー サイズを処理するために特別に設計された新しい多段階イベント検出モデル CEDAR も提案します。
私たちのモデルが、InstructGPT を含むさまざまなベースラインと比較して優れたパフォーマンスを示すことを示します。
最後に、エラー分析を実行し、ラベル ノイズがこの新しいデータセットのパフォーマンスを向上させる最大の課題であることを示します。
データセット、コード、モデルは \url{https://github.com/ZQS1943/GLEN} でリリースされています。}

要約(オリジナル)

The progress of event extraction research has been hindered by the absence of wide-coverage, large-scale datasets. To make event extraction systems more accessible, we build a general-purpose event detection dataset GLEN, which covers 205K event mentions with 3,465 different types, making it more than 20x larger in ontology than today’s largest event dataset. GLEN is created by utilizing the DWD Overlay, which provides a mapping between Wikidata Qnodes and PropBank rolesets. This enables us to use the abundant existing annotation for PropBank as distant supervision. In addition, we also propose a new multi-stage event detection model CEDAR specifically designed to handle the large ontology size in GLEN. We show that our model exhibits superior performance compared to a range of baselines including InstructGPT. Finally, we perform error analysis and show that label noise is still the largest challenge for improving performance for this new dataset. Our dataset, code, and models are released at \url{https://github.com/ZQS1943/GLEN}.}

arxiv情報

著者 Qiusi Zhan,Sha Li,Kathryn Conger,Martha Palmer,Heng Ji,Jiawei Han
発行日 2023-10-31 17:21:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク