DICE: Data-Efficient Clinical Event Extraction with Generative Models

要約

臨床領域のイベント抽出は、十分に研究されていない研究領域です。
トレーニング データが不足していることに加えて、エンティティの境界が曖昧なドメイン固有の用語が大量に存在するため、タスクは特に困難になります。
この論文では、臨床イベント抽出のための堅牢でデータ効率の高い生成モデルである DICE を紹介します。
DICE はイベント抽出を条件付き生成問題として構成し、生物医学的言及の境界を正確に決定するための対照的な学習目標を導入します。
また、DICE は、エンティティの言及の境界をより適切に識別するために、補助的な言及識別タスクをイベント抽出タスクと組み合わせてトレーニングし、さらに、識別されたエンティティの言及をそれぞれのタスクのトリガーおよび引数の候補として組み込む特別なマーカーを導入します。
臨床イベント抽出のベンチマークを行うために、既存の臨床情報抽出データセット MACCROBAT に基づいて、引数アノテーションを備えた初の臨床イベント抽出データセット MACCROBAT-EE を構築しました。
私たちの実験では、特に低データ設定下での、臨床およびニュース領域のイベント抽出における DICE の最先端のパフォーマンスを実証しています。

要約(オリジナル)

Event extraction for the clinical domain is an under-explored research area. The lack of training data along with the high volume of domain-specific terminologies with vague entity boundaries makes the task especially challenging. In this paper, we introduce DICE, a robust and data-efficient generative model for clinical event extraction. DICE frames event extraction as a conditional generation problem and introduces a contrastive learning objective to accurately decide the boundaries of biomedical mentions. DICE also trains an auxiliary mention identification task jointly with event extraction tasks to better identify entity mention boundaries, and further introduces special markers to incorporate identified entity mentions as trigger and argument candidates for their respective tasks. To benchmark clinical event extraction, we compose MACCROBAT-EE, the first clinical event extraction dataset with argument annotation, based on an existing clinical information extraction dataset MACCROBAT. Our experiments demonstrate state-of-the-art performances of DICE for clinical and news domain event extraction, especially under low data settings.

arxiv情報

著者 Mingyu Derek Ma,Alexander K. Taylor,Wei Wang,Nanyun Peng
発行日 2023-05-25 11:04:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク