Distantly Supervised Morpho-Syntactic Model for Relation Extraction

要約

情報抽出 (IE) のタスクには、非構造化テキスト コンテンツを構造化データに自動的に変換することが含まれます。
この分野のほとんどの研究は、文書からすべての事実または特定の一連の関係を抽出することに重点を置いています。
この論文では、テキストから無制限の関係性のセットを抽出して分類する方法を紹介します。
私たちの手法は、遠隔監視法によって得られた形態構文抽出パターンに依存し、候補グラフを抽出および分類するための構文インデックスおよび意味インデックスを作成します。
私たちは、ウィキデータとウィキペディアに基づいて構築された 6 つのデータセットに基づいてアプローチを評価します。
評価の結果、私たちのアプローチは最大 0.85 の精度スコアを達成できるものの、再現率と F1 スコアは低くなることを示しています。
私たちのアプローチにより、情報抽出のためのルールベースのシステムを迅速に作成し、機械学習および深層学習ベースの分類子をトレーニングするための注釈付きデータセットを構築できます。

要約(オリジナル)

The task of Information Extraction (IE) involves automatically converting unstructured textual content into structured data. Most research in this field concentrates on extracting all facts or a specific set of relationships from documents. In this paper, we present a method for the extraction and categorisation of an unrestricted set of relationships from text. Our method relies on morpho-syntactic extraction patterns obtained by a distant supervision method, and creates Syntactic and Semantic Indices to extract and classify candidate graphs. We evaluate our approach on six datasets built on Wikidata and Wikipedia. The evaluation shows that our approach can achieve Precision scores of up to 0.85, but with lower Recall and F1 scores. Our approach allows to quickly create rule-based systems for Information Extraction and to build annotated datasets to train machine-learning and deep-learning based classifiers.

arxiv情報

著者 Nicolas Gutehrlé,Iana Atanassova
発行日 2024-01-18 14:17:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク