UniCausal: Unified Benchmark and Repository for Causal Text Mining

要約

タイトル:UniCausal: Causal Text Miningのための統一されたベンチマークとリポジトリ

要約:現在の因果関係のテキストマイニングのデータセットは、目的、データカバレッジ、注釈スキームが異なります。これらの不一致な取り組みは、モデリング能力とモデルパフォーマンスの公正な比較を妨げます。さらに、原因-結果スパン注釈が含まれるデータセットはほとんどありませんが、これはエンドツーエンドの因果関係の抽出に必要です。これらの問題に対処するために、私たちはUniCausalを提案しました。UniCausalは、3つのタスクにわたる因果関係のテキストマイニングの統一されたベンチマークであり、(1)因果関係のシーケンス分類、(2)原因-結果スパン検出、(3)因果関係のペア分類が含まれます。我々は、主に人手によって注釈された6つの高品質なコーパスの注釈を統合して整列し、それぞれのタスクにおいて58,720、12,144、69,165の例を得ました。因果関係の定義は主観的であるため、我々のフレームワークは、研究者がいくつかのデータセットやすべてのデータセットやタスクに取り組むことを可能にするよう設計されています。初期ベンチマークを作成するために、私たちはBERTプレトレーニング言語モデルをそれぞれのタスクに対してファインチューニングし、それぞれ70.10%バイナリF1、52.42%マクロF1、84.68%バイナリF1のスコアを達成しました。

– UniCausalは、テキストマイニングのための因果関係の統一ベンチマークです。
– UniCausalは、3つのタスクにわたって因果関係のテキストマイニングに取り組みます。
– UniCausalは、6つの高品質のコーパスの注釈を統合し、58,720、12,144、69,165の例を得ています。
– UniCausalは、研究者がデータセットやタスクに取り組むことを可能にするフレームワークです。
– UniCausalは、BERTプレトレーニング言語モデルをファインチューニングし、高いスコアを達成しました。

要約(オリジナル)

Current causal text mining datasets vary in objectives, data coverage, and annotation schemes. These inconsistent efforts prevent modeling capabilities and fair comparisons of model performance. Furthermore, few datasets include cause-effect span annotations, which are needed for end-to-end causal relation extraction. To address these issues, we propose UniCausal, a unified benchmark for causal text mining across three tasks: (I) Causal Sequence Classification, (II) Cause-Effect Span Detection and (III) Causal Pair Classification. We consolidated and aligned annotations of six high quality, mainly human-annotated, corpora, resulting in a total of 58,720, 12,144 and 69,165 examples for each task respectively. Since the definition of causality can be subjective, our framework was designed to allow researchers to work on some or all datasets and tasks. To create an initial benchmark, we fine-tuned BERT pre-trained language models to each task, achieving 70.10% Binary F1, 52.42% Macro F1, and 84.68% Binary F1 scores respectively.

arxiv情報

著者 Fiona Anting Tan,Xinyu Zuo,See-Kiong Ng
発行日 2023-04-14 09:02:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク