Leveraging Open Information Extraction for More Robust Domain Transfer of Event Trigger Detection

要約

イベント検出は、Wikipedia やニュースなどの多くの分野で重要な情報抽出タスクです。
このタスクは通常、トリガー検出 (TD)、つまり特定のイベントを引き起こすテキスト内のトークン スパンを識別することに依存します。
トリガーの概念は理想的にはドメイン間で共通である必要がありますが、高リソースのドメインから低リソースのドメインへの TD のドメイン転送は、パフォーマンスの大幅な低下をもたらします。
我々は、ルールベースのオープン情報抽出 (OIE) システムから得られるサブジェクトとオブジェクトの関係を使用してドメイン間のトリガーを結合することにより、TD における負の転送の問題に対処します。
マルチタスク トレーニングを通じて注入された OIE 関係が、異なるドメインのトリガー間の仲介者として機能し、特に高リソースのソース ドメインから転送する場合に、ゼロショットおよび数ショットの TD ドメイン転送を強化し、パフォーマンスの低下を軽減できることを実証します (Wikipedia)
リソースの少ないターゲット ドメイン (ニュース) に。
さらに、この改善された転送をターゲット ドメインのマスクされた言語モデリングと組み合わせて、さらなる TD 転送の向上を観察します。
最後に、OIE システムの選択に対してゲインが堅牢であることを示します。

要約(オリジナル)

Event detection is a crucial information extraction task in many domains, such as Wikipedia or news. The task typically relies on trigger detection (TD) — identifying token spans in the text that evoke specific events. While the notion of triggers should ideally be universal across domains, domain transfer for TD from high- to low-resource domains results in significant performance drops. We address the problem of negative transfer in TD by coupling triggers between domains using subject-object relations obtained from a rule-based open information extraction (OIE) system. We demonstrate that OIE relations injected through multi-task training can act as mediators between triggers in different domains, enhancing zero- and few-shot TD domain transfer and reducing performance drops, in particular when transferring from a high-resource source domain (Wikipedia) to a low(er)-resource target domain (news). Additionally, we combine this improved transfer with masked language modeling on the target domain, observing further TD transfer gains. Finally, we demonstrate that the gains are robust to the choice of the OIE system.

arxiv情報

著者 David Dukić,Kiril Gashteovski,Goran Glavaš,Jan Šnajder
発行日 2024-02-01 17:34:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク