Active Learning for Event Extraction with Memory-based Loss Prediction Model


イベント抽出 (EE) は、多くの産業用アプリケーション シナリオで重要な役割を果たします。高品質の EE メソッドには、教師あり学習モデルをトレーニングするための大量の手動注釈データが必要です。
ただし、アノテーション データを取得するためのコストは非常に高く、特にドメイン イベントのアノテーションには、対応するドメインの専門家の参加が必要です。
そこで、イベント アノテーションのコストを削減するために、アクティブ ラーニング (AL) テクノロジを導入します。
しかし、既存の AL メソッドには 2 つの主な問題があり、イベント抽出にはあまり使用されていません。
第二に、サンプルの重要性の既存の評価では、ローカル サンプル情報が使用されていません。
この論文では、EE のための新しいディープ AL メソッドを提示します。
ラベルのないサンプルを効率的に選択するために、バッチベースの選択戦略とメモリベースの損失予測モデル (MBLP) を提案します。
最後に、MBLP モデルをトレーニングするための遅延トレーニング戦略を提案します。
3 つのドメイン データセットに対して広範な実験が行われ、私たちの方法は他の最先端の方法よりも優れています。


Event extraction (EE) plays an important role in many industrial application scenarios, and high-quality EE methods require a large amount of manual annotation data to train supervised learning models. However, the cost of obtaining annotation data is very high, especially for annotation of domain events, which requires the participation of experts from corresponding domain. So we introduce active learning (AL) technology to reduce the cost of event annotation. But the existing AL methods have two main problems, which make them not well used for event extraction. Firstly, the existing pool-based selection strategies have limitations in terms of computational cost and sample validity. Secondly, the existing evaluation of sample importance lacks the use of local sample information. In this paper, we present a novel deep AL method for EE. We propose a batch-based selection strategy and a Memory-Based Loss Prediction model (MBLP) to select unlabeled samples efficiently. During the selection process, we use an internal-external sample loss ranking method to evaluate the sample importance by using local information. Finally, we propose a delayed training strategy to train the MBLP model. Extensive experiments are performed on three domain datasets, and our method outperforms other state-of-the-art methods.


著者 Shirong Shen,Zhen Li,Guilin Qi
発行日 2023-03-09 09:22:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL パーマリンク