Open Information Extraction via Chunks

要約

タイトル:チャンクを介したオープン情報抽出

要約:
– 既存のオープン情報抽出(OIE)システムは、文をトークンに分割し、トークンのスパンをタプルの関係や引数として認識している。
– 本論文では、文を「チャンクシーケンス」として認識し、チャンクのスパンをタプルの関係や引数として認識する「Sentence as Chunk sequence (SaC)」を提案している。
– SaCはトークンシーケンスよりもOIEにとって質的・量的に優れていると主張し、CoNLLチャンク、シンプルフレーズ、NPチャンク、SpanOIEのスパンの4つの選択肢について、ゴールドタプルと比較して評価した。
– その結果、BERTベースの単純なモデルを提案し、SaCに基づくタプル抽出のための「Chunk-OIE」を提案した。
– Chunk-OIEは複数のOIEデータセットで最先端の結果を達成し、SaCがOIEタスクに有利であることを示している。

要約(オリジナル)

Open Information Extraction (OIE) aims to extract relational tuples from open-domain sentences. Existing OIE systems split a sentence into tokens and recognize token spans as tuple relations and arguments. We instead propose Sentence as Chunk sequence (SaC) and recognize chunk spans as tuple relations and arguments. We argue that SaC has better quantitative and qualitative properties for OIE than sentence as token sequence, and evaluate four choices of chunks (i.e., CoNLL chunks, simple phrases, NP chunks, and spans from SpanOIE) against gold OIE tuples. Accordingly, we propose a simple BERT-based model for sentence chunking, and propose Chunk-OIE for tuple extraction on top of SaC. Chunk-OIE achieves state-of-the-art results on multiple OIE datasets, showing that SaC benefits OIE task.

arxiv情報

著者 Kuicai Dong,Aixin Sun,Jung-Jae Kim,Xiaoli Li
発行日 2023-05-05 06:03:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク