Open Information Extraction from 2007 to 2022 — A Survey

要約

オープン情報抽出は、テキストの関係タイプやドメインに制限なく、非構造化テキストから構造化情報を抽出することを目的とした重要な NLP タスクです。
この調査ペーパーでは、以前の調査ではカバーされていない新しいモデルに焦点を当てて、2007 年から 2022 年までのオープンな情報抽出テクノロジーをカバーしています。
私たちは、最近の OIE 技術の発展に対応するために、情報源の観点から新しい分類方法を提案します。
さらに、タスク設定、および現在人気のあるデータセットとモデル評価指標に基づいた 3 つの主要なアプローチを要約します。
包括的なレビューを踏まえ、データセット、情報源、出力形式、手法、評価指標の側面から、いくつかの将来の方向性が示されています。

要約(オリジナル)

Open information extraction is an important NLP task that targets extracting structured information from unstructured text without limitations on the relation type or the domain of the text. This survey paper covers open information extraction technologies from 2007 to 2022 with a focus on new models not covered by previous surveys. We propose a new categorization method from the source of information perspective to accommodate the development of recent OIE technologies. In addition, we summarize three major approaches based on task settings as well as current popular datasets and model evaluation metrics. Given the comprehensive review, several future directions are shown from datasets, source of information, output form, method, and evaluation metric aspects.

arxiv情報

著者 Pai Liu,Wenyang Gao,Wenjie Dong,Songfang Huang,Yue Zhang
発行日 2024-04-30 15:27:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク