要約
イベント抽出システムの開発は、広範囲にわたる大規模なデータセットがないために妨げられてきました。
イベント抽出システムをより利用しやすくするために、3,465 の異なるイベント タイプをカバーする汎用イベント検出データセット GLEN を構築し、現在のデータセットよりもオントロジーが 20 倍以上大きくなっています。
GLEN は、ウィキデータ Qnode と PropBank ロールセット間のマッピングを提供する DWD オーバーレイを利用して作成されます。
これにより、PropBank の既存の豊富なアノテーションを遠隔監視として使用できます。
さらに、大きなオントロジー サイズと GLEN の部分ラベルを処理するために特別に設計された新しい多段階イベント検出モデルも提案します。
私たちのモデルは、従来の分類ベースラインと新しい定義ベースのモデルの両方と比較して、優れたパフォーマンス (約 10% の F1 ゲイン) を示すことを示しています。
最後に、エラー分析を実行し、ラベル ノイズが依然としてパフォーマンスを改善するための最大の課題であることを示します。
要約(オリジナル)
The development of event extraction systems has been hindered by the absence of wide-coverage, large-scale datasets. To make event extraction systems more accessible, we build a general-purpose event detection dataset GLEN, which covers 3,465 different event types, making it over 20x larger in ontology than any current dataset. GLEN is created by utilizing the DWD Overlay, which provides a mapping between Wikidata Qnodes and PropBank rolesets. This enables us to use the abundant existing annotation for PropBank as distant supervision. In addition, we also propose a new multi-stage event detection model specifically designed to handle the large ontology size and partial labels in GLEN. We show that our model exhibits superior performance (~10% F1 gain) compared to both conventional classification baselines and newer definition-based models. Finally, we perform error analysis and show that label noise is still the largest challenge for improving performance.
arxiv情報
著者 | Qiusi Zhan,Sha Li,Kathryn Conger,Martha Palmer,Heng Ji,Jiawei Han |
発行日 | 2023-03-20 20:40:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google