SNaRe: Domain-aware Data Generation for Low-Resource Event Detection

要約

イベント検出(ED) – 自然言語テキストからイベントの言及を特定するタスクは、生物医学、法律、疫学などの高度に専門化されたドメインで推論を可能にするために重要です。
データ生成は、高価な専門家の注釈を必要とせずに、その有用性をより広いアプリケーションに拡大するのに効果的であることが証明されています。
ただし、既存の生成アプローチが特殊なドメインに適用されると、発生した文とターゲットドメインの間の分布の不一致を特徴とする、注釈が正しくないラベルノイズとドメインドリフトに苦労します。
これらの問題に対処するために、スカウト、ナレーター、リファイナーの3つのコンポーネントで構成されるドメイン認識の合成データ生成フレームワークであるSNAREを紹介します。
スカウト抽出物は、標的ドメインデータからトリガーをトリガーし、コーパスレベルの統計を使用して高品質のドメイン固有のトリガーリストをキュレートしてドメインドリフトを緩和します。
これらのトリガーに条件付けられたナレーターは、高品質のドメインに合わせた文を生成し、リファイナーは追加のイベントの言及を識別し、高い注釈の品質を確保します。
3つの多様なドメインEDデータセットでの実験により、SNAREが最良のベースラインよりも優れている方法が明らかになり、ゼロショット/少ないショット設定で平均F1ゲインが3〜7%、多言語生成の4-20%F1の改善が得られます。
生成されたトリガーヒット率と人間の評価を分析すると、Snareのより強い注釈の質とドメインドリフトの削減が実証されます。

要約(オリジナル)

Event Detection (ED) — the task of identifying event mentions from natural language text — is critical for enabling reasoning in highly specialized domains such as biomedicine, law, and epidemiology. Data generation has proven to be effective in broadening its utility to wider applications without requiring expensive expert annotations. However, when existing generation approaches are applied to specialized domains, they struggle with label noise, where annotations are incorrect, and domain drift, characterized by a distributional mismatch between generated sentences and the target domain. To address these issues, we introduce SNaRe, a domain-aware synthetic data generation framework composed of three components: Scout, Narrator, and Refiner. Scout extracts triggers from unlabeled target domain data and curates a high-quality domain-specific trigger list using corpus-level statistics to mitigate domain drift. Narrator, conditioned on these triggers, generates high-quality domain-aligned sentences, and Refiner identifies additional event mentions, ensuring high annotation quality. Experimentation on three diverse domain ED datasets reveals how SNaRe outperforms the best baseline, achieving average F1 gains of 3-7% in the zero-shot/few-shot settings and 4-20% F1 improvement for multilingual generation. Analyzing the generated trigger hit rate and human evaluation substantiates SNaRe’s stronger annotation quality and reduced domain drift.

arxiv情報

著者 Tanmay Parekh,Yuxuan Dong,Lucas Bandarkar,Artin Kim,I-Hung Hsu,Kai-Wei Chang,Nanyun Peng
発行日 2025-06-05 15:45:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク