要約
因果知識抽出とは、テキストから因果関係を検出して関連する原因と結果を抽出する作業です。
このタスクは言語理解と知識発見にとって重要ですが、この分野の最近の研究は主に、テキストセグメントを因果関係か非因果関係として二値分類することに焦点を当てています。
これに関して、因果関係の知識を抽出するための 3 つの配列タグ付けモデルの徹底的な分析を実行し、それを因果関係抽出のスパンベースのアプローチと比較します。
私たちの実験では、事前トレーニングされた言語モデル (BERT など) からの埋め込みにより、複雑なアーキテクチャを備えた以前の最先端のモデルと比較して、このタスクのパフォーマンスが大幅に向上することがわかりました。
さまざまなタイプの因果関係フレーズを持つ多様なドメインからの 4 つのデータセットすべてにわたって、BERT に基づく単純な配列タグ付けモデルよりもスパンベースのモデルの方がパフォーマンスが優れていることが観察されています。
要約(オリジナル)
Causal knowledge extraction is the task of extracting relevant causes and effects from text by detecting the causal relation. Although this task is important for language understanding and knowledge discovery, recent works in this domain have largely focused on binary classification of a text segment as causal or non-causal. In this regard, we perform a thorough analysis of three sequence tagging models for causal knowledge extraction and compare it with a span based approach to causality extraction. Our experiments show that embeddings from pre-trained language models (e.g. BERT) provide a significant performance boost on this task compared to previous state-of-the-art models with complex architectures. We observe that span based models perform better than simple sequence tagging models based on BERT across all 4 data sets from diverse domains with different types of cause-effect phrases.
arxiv情報
著者 | Anik Saha,Oktie Hassanzadeh,Alex Gittens,Jian Ni,Kavitha Srinivas,Bulent Yener |
発行日 | 2023-08-07 19:50:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google