Leveraging Open Information Extraction for Improving Few-Shot Trigger Detection Domain Transfer

要約

イベント検出は、Wikipedia やニュースなどの多くの分野で重要な情報抽出タスクです。
このタスクは通常、トリガー検出 (TD)、つまり特定のイベントを引き起こすテキスト内のトークン スパンを識別することに依存します。
トリガーの概念は理想的にはドメイン間で共通である必要がありますが、高リソースのドメインから低リソースのドメインへの TD のドメイン転送は、パフォーマンスの大幅な低下をもたらします。
我々は、ルールベースのオープン情報抽出(OIE)システムから得られるサブジェクトとオブジェクトの関係を使用してドメイン間のトリガーを結合することにより、TDの負の転送の問題に対処します。
マルチタスクトレーニングを通じて注入された関係は、異なるドメインのトリガー間の仲介者として機能し、特に高リソースソースの Wikipedia ドメインから低リソースソースの Wikipedia ドメインに転送する場合に、ゼロショットおよび少数ショットの TD ドメイン転送を強化し、マイナスの転送を削減できることを実証します。
-リソースのターゲット ニュース ドメイン。
さらに、抽出された関係をターゲット ドメインのマスクされた言語モデリングと組み合わせて、さらなる TD パフォーマンスの向上を実現します。
最後に、結果が OIE システムの選択に対して堅牢であることを示します。

要約(オリジナル)

Event detection is a crucial information extraction task in many domains, such as Wikipedia or news. The task typically relies on trigger detection (TD) — identifying token spans in the text that evoke specific events. While the notion of triggers should ideally be universal across domains, domain transfer for TD from high- to low-resource domains results in significant performance drops. We address the problem of negative transfer for TD by coupling triggers between domains using subject-object relations obtained from a rule-based open information extraction (OIE) system. We demonstrate that relations injected through multi-task training can act as mediators between triggers in different domains, enhancing zero- and few-shot TD domain transfer and reducing negative transfer, in particular when transferring from a high-resource source Wikipedia domain to a low-resource target news domain. Additionally, we combine the extracted relations with masked language modeling on the target domain and obtain further TD performance gains. Finally, we demonstrate that the results are robust to the choice of the OIE system.

arxiv情報

著者 David Dukić,Kiril Gashteovski,Goran Glavaš,Jan Šnajder
発行日 2023-05-23 15:27:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク