REXEL: An End-to-end Model for Document-Level Relation Extraction and Entity Linking

要約

非構造化テキストから構造化情報を抽出することは、多くの下流 NLP アプリケーションにとって重要であり、伝統的にクローズド情報抽出 (cIE) によって実現されています。
ただし、cIE の既存のアプローチには 2 つの制限があります。(i) 多くの場合パイプラインであるため、エラーが伝播しやすくなります。および/または (ii) 文レベルに制限されているため、長距離の依存関係を取得できず、結果として次のような問題が発生します。
推論に時間がかかります。
我々は、文書レベル cIE (DocIE) の共同タスクのための高効率かつ正確なモデルである REXEL を提案することで、これらの制限に対処します。
REXEL は、言及の検出、エンティティの型指定、エンティティの曖昧さの解消、共参照の解決、およびドキュメント レベルの関係分類を 1 回のフォワード パスで実行し、参照ナレッジ グラフに完全にリンクされたファクトを生成します。
これは、同様の設定で競合する既存のアプローチよりも平均 11 倍高速であり、個々のサブタスクのいずれかに最適化された場合と、さまざまな共同タスクのさまざまな組み合わせの両方で競争力のあるパフォーマンスを示し、ベースラインを平均 6 F1 ポイント以上上回りました。
速度と精度の組み合わせにより、REXEL は Web スケールで構造化情報を抽出する正確かつコスト効率の高いシステムになります。
また、DocIE での今後の作業のベンチマークを可能にするために、DocRED データセットの拡張機能もリリースします。これは https://github.com/amazon-science/e2e-docie で入手できます。

要約(オリジナル)

Extracting structured information from unstructured text is critical for many downstream NLP applications and is traditionally achieved by closed information extraction (cIE). However, existing approaches for cIE suffer from two limitations: (i) they are often pipelines which makes them prone to error propagation, and/or (ii) they are restricted to sentence level which prevents them from capturing long-range dependencies and results in expensive inference time. We address these limitations by proposing REXEL, a highly efficient and accurate model for the joint task of document level cIE (DocIE). REXEL performs mention detection, entity typing, entity disambiguation, coreference resolution and document-level relation classification in a single forward pass to yield facts fully linked to a reference knowledge graph. It is on average 11 times faster than competitive existing approaches in a similar setting and performs competitively both when optimised for any of the individual subtasks and a variety of combinations of different joint tasks, surpassing the baselines by an average of more than 6 F1 points. The combination of speed and accuracy makes REXEL an accurate cost-efficient system for extracting structured information at web-scale. We also release an extension of the DocRED dataset to enable benchmarking of future work on DocIE, which is available at https://github.com/amazon-science/e2e-docie.

arxiv情報

著者 Nacime Bouziani,Shubhi Tyagi,Joseph Fisher,Jens Lehmann,Andrea Pierleoni
発行日 2024-04-19 11:04:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク