A Survey on Open Information Extraction from Rule-based Model to Large Language Model

要約

Open Information Extraction (OpenIE) は、関係タイプやドメインに制限されずに、非構造化テキストから構造化情報を導き出すことを目的とした重要な NLP タスクです。
この調査ペーパーでは、2007 年から 2024 年までにわたる OpenIE テクノロジーの概要を提供し、これまでの調査にはなかった時系列的な視点を強調しています。
最近のテクノロジーの進歩に合わせて、OpenIE のタスク設定の進化を調査します。
この論文では、OpenIE のアプローチをルールベース、ニューラル、および事前トレーニングされた大規模言語モデルに分類し、それぞれを時系列の枠組みで説明しています。
さらに、現在使用されている一般的なデータセットと評価指標も強調しています。
この広範なレビューに基づいて、この文書では、データセット、情報ソース、出力形式、方法論、評価指標の観点から潜在的な将来の方向性を概説しています。

要約(オリジナル)

Open Information Extraction (OpenIE) represents a crucial NLP task aimed at deriving structured information from unstructured text, unrestricted by relation type or domain. This survey paper provides an overview of OpenIE technologies spanning from 2007 to 2024, emphasizing a chronological perspective absent in prior surveys. It examines the evolution of task settings in OpenIE to align with the advances in recent technologies. The paper categorizes OpenIE approaches into rule-based, neural, and pre-trained large language models, discussing each within a chronological framework. Additionally, it highlights prevalent datasets and evaluation metrics currently in use. Building on this extensive review, the paper outlines potential future directions in terms of datasets, information sources, output formats, methodologies, and evaluation metrics.

arxiv情報

著者 Pai Liu,Wenyang Gao,Wenjie Dong,Lin Ai,Ziwei Gong,Songfang Huang,Zongsheng Li,Ehsan Hoque,Julia Hirschberg,Yue Zhang
発行日 2024-05-10 16:33:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク