WebIE: Faithful and Robust Information Extraction on the Web

要約

生のテキストから構造化され根拠のある事実トリプルを抽出することは、情報抽出 (IE) の基本的なタスクです。
既存の IE データセットは通常、ハイパーリンクを使用してエンティティを Wikidata ナレッジ ベースにリンクし、Wikipedia の記事から収集されます。
ただし、Wikipedia のみでトレーニングされたモデルは、ノイズの多いテキストや事実情報を含まないテキストが含まれることが多い Web ドメインに適用する場合には制限があります。
我々は、英語 Common Crawl コーパスから自動的に収集された 160 万の文で構成される初の大規模なエンティティリンクの閉じた IE データセットである WebIE を紹介します。
WebIE には、Web 上のデータをより適切に反映するために、否定的な例、つまり事実トリプルのない文も含まれています。
私たちは、クラウドソーシングを通じて WebIE から約 21,000 のトリプルに注釈を付け、注釈付きセットを他の 4 つの言語 (フランス語、スペイン語、ポルトガル語、ヒンディー語) に翻訳した mWebIE を導入しました。
私たちは、生成 IE モデルのドメイン内、ドメイン外、およびゼロショットのクロスリンガル パフォーマンスを評価し、WebIE でトレーニングされたモデルがより優れた汎用性を示すことを発見しました。
また、補助タスクとしてエンティティ リンクを使用する 3 つのトレーニング戦略も提案します。
私たちの実験では、エンティティ リンクの目的を追加すると、生成 IE モデルの忠実性が向上することがわかりました。

要約(オリジナル)

Extracting structured and grounded fact triples from raw text is a fundamental task in Information Extraction (IE). Existing IE datasets are typically collected from Wikipedia articles, using hyperlinks to link entities to the Wikidata knowledge base. However, models trained only on Wikipedia have limitations when applied to web domains, which often contain noisy text or text that does not have any factual information. We present WebIE, the first large-scale, entity-linked closed IE dataset consisting of 1.6M sentences automatically collected from the English Common Crawl corpus. WebIE also includes negative examples, i.e. sentences without fact triples, to better reflect the data on the web. We annotate ~21K triples from WebIE through crowdsourcing and introduce mWebIE, a translation of the annotated set in four other languages: French, Spanish, Portuguese, and Hindi. We evaluate the in-domain, out-of-domain, and zero-shot cross-lingual performance of generative IE models and find models trained on WebIE show better generalisability. We also propose three training strategies that use entity linking as an auxiliary task. Our experiments show that adding Entity-Linking objectives improves the faithfulness of our generative IE models.

arxiv情報

著者 Chenxi Whitehouse,Clara Vania,Alham Fikri Aji,Christos Christodoulopoulos,Andrea Pierleoni
発行日 2023-06-15 13:51:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク