FIG: Forward-Inverse Generation for Low-Resource Domain-specific Event Detection

要約

イベント検出(ED)は、生物医学、法的、および疫学的領域におけるドメイン固有の推論に役立つ自然言語テキストからの関心のあると入力されたイベント言及を特定するタスクです。
ただし、さまざまなドメインの数千のイベントの監視データを調達することは、面倒で高価な作業です。
この目的のために、既存の作品は、フォワード(ラベルのない文のラベルを生成)および逆(生成されたラベルからの文の生成)世代を介して合成データ生成を調査しました。
ただし、フォワードジェネレーションはしばしばノイズの多いラベルを生成しますが、逆発電はドメインドリフトと不完全なイベント注釈と闘います。
これらの課題に対処するために、高品質のデータ合成のために逆生成を活用するハイブリッドアプローチであるイチジクを導入しながら、無効なターゲットデータでフォワード生成を介して抽出されたドメイン固有のキューに固定します。
イチジクは、前方の生成ベースの改良を通じて欠落した注釈を追加することにより、その合成データをさらに強化します。
多様なドメインからの3つのEDデータセットでの実験により、イチジクはゼロショットおよび少ないショット設定でそれぞれ3.3%F1と5.4%F1の平均ゲインを達成する最高のベースラインを上回ることが明らかになりました。
生成されたトリガーヒット率と人間の評価を分析すると、既存のベースラインと比較して、イチジクの優れたドメインアライメントとデータの品質が実証されます。

要約(オリジナル)

Event Detection (ED) is the task of identifying typed event mentions of interest from natural language text, which benefits domain-specific reasoning in biomedical, legal, and epidemiological domains. However, procuring supervised data for thousands of events for various domains is a laborious and expensive task. To this end, existing works have explored synthetic data generation via forward (generating labels for unlabeled sentences) and inverse (generating sentences from generated labels) generations. However, forward generation often produces noisy labels, while inverse generation struggles with domain drift and incomplete event annotations. To address these challenges, we introduce FIG, a hybrid approach that leverages inverse generation for high-quality data synthesis while anchoring it to domain-specific cues extracted via forward generation on unlabeled target data. FIG further enhances its synthetic data by adding missing annotations through forward generation-based refinement. Experimentation on three ED datasets from diverse domains reveals that FIG outperforms the best baseline achieving average gains of 3.3% F1 and 5.4% F1 in the zero-shot and few-shot settings respectively. Analyzing the generated trigger hit rate and human evaluation substantiates FIG’s superior domain alignment and data quality compared to existing baselines.

arxiv情報

著者 Tanmay Parekh,Yuxuan Dong,Lucas Bandarkar,Artin Kim,I-Hung Hsu,Kai-Wei Chang,Nanyun Peng
発行日 2025-02-24 18:20:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク