Silver Syntax Pre-training for Cross-Domain Relation Extraction

要約

関係抽出 (RE) は、特に現実的な領域外の評価を考慮する場合、依然として困難なタスクです。
この主な理由の 1 つは、現在の RE データセットのトレーニング サイズが限られていることです。高品質の (手動でアノテーションが付けられた) データの取得は非常にコストがかかり、新しいドメインごとに繰り返すのは現実的には不可能です。
関連タスクからのデータに対する中間トレーニング ステップは、多くの NLP タスクにわたって有益であることが示されています。ただし、このセットアップには依然として補足的な注釈付きデータが必要であり、多くの場合、それは利用できません。
この論文では、特に RE のための中間事前トレーニングを調査します。
我々は、構文構造と意味論的な RE の間の親和性を利用し、2 つのエンティティ間の最短の依存関係パス上にあることによって RE に密接に関連する構文関係を特定します。
次に、現在の構文パーサーの高精度を利用して、大量の低コストの事前トレーニング データを自動的に取得します。
関連する構文関係に基づいて RE モデルを事前トレーニングすることにより、追加の注釈付きデータなしで、6 つのクロスドメイン設定のうち 5 つでベースラインを上回るパフォーマンスを発揮できます。

要約(オリジナル)

Relation Extraction (RE) remains a challenging task, especially when considering realistic out-of-domain evaluations. One of the main reasons for this is the limited training size of current RE datasets: obtaining high-quality (manually annotated) data is extremely expensive and cannot realistically be repeated for each new domain. An intermediate training step on data from related tasks has shown to be beneficial across many NLP tasks.However, this setup still requires supplementary annotated data, which is often not available. In this paper, we investigate intermediate pre-training specifically for RE. We exploit the affinity between syntactic structure and semantic RE, and identify the syntactic relations which are closely related to RE by being on the shortest dependency path between two entities. We then take advantage of the high accuracy of current syntactic parsers in order to automatically obtain large amounts of low-cost pre-training data. By pre-training our RE model on the relevant syntactic relations, we are able to outperform the baseline in five out of six cross-domain setups, without any additional annotated data.

arxiv情報

著者 Elisa Bassignana,Filip Ginter,Sampo Pyysalo,Rob van der Goot,Barbara Plank
発行日 2023-05-18 14:49:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク