Unlocking Science: Novel Dataset and Benchmark for Cross-Modality Scientific Information Extraction

要約

科学論文から重要な情報を抽出すると、研究者の作業がより効率的になり、科学の進歩のペースが加速する可能性があります。
過去数年間にわたり、Scientific Information Extraction (SciIE) の研究では、いくつかの新しいシステムとベンチマークがリリースされました。
ただし、既存の論文に焦点を当てたデータセットは、複雑な処理と高価な注釈のため、原稿の特定の部分 (要約など) のみに焦点を当てており、単一モダリティ (テキストまたは表のみ) であることがほとんどです。
さらに、核となる情報は、テキストまたは表のいずれか、あるいはその両方に存在することができます。
データ可用性におけるこのギャップを埋め、ラベル付けコストを軽減しながらクロスモダリティ IE を有効にするために、反復手順でテキスト内のエンティティ、およびテーブル内のエンティティとリレーションに注釈を付けるための半教師ありパイプラインを提案します。
このパイプラインに基づいて、高品質のベンチマーク、大規模なコーパス、半教師ありアノテーション パイプラインなどの新しいリソースを科学コミュニティにリリースします。
さらに、ベースラインとして、提案されたベンチマーク データセットでの最先端の IE モデルのパフォーマンスを報告します。
最後に、現在のタスクに対する ChatGPT などの大規模言語モデルの潜在的な機能を調査します。
私たちの新しいデータセット、結果、分析は、半教師ありパイプラインの有効性と効率性を検証し、その残りの制限について説明します。

要約(オリジナル)

Extracting key information from scientific papers has the potential to help researchers work more efficiently and accelerate the pace of scientific progress. Over the last few years, research on Scientific Information Extraction (SciIE) witnessed the release of several new systems and benchmarks. However, existing paper-focused datasets mostly focus only on specific parts of a manuscript (e.g., abstracts) and are single-modality (i.e., text- or table-only), due to complex processing and expensive annotations. Moreover, core information can be present in either text or tables or across both. To close this gap in data availability and enable cross-modality IE, while alleviating labeling costs, we propose a semi-supervised pipeline for annotating entities in text, as well as entities and relations in tables, in an iterative procedure. Based on this pipeline, we release novel resources for the scientific community, including a high-quality benchmark, a large-scale corpus, and a semi-supervised annotation pipeline. We further report the performance of state-of-the-art IE models on the proposed benchmark dataset, as a baseline. Lastly, we explore the potential capability of large language models such as ChatGPT for the current task. Our new dataset, results, and analysis validate the effectiveness and efficiency of our semi-supervised pipeline, and we discuss its remaining limitations.

arxiv情報

著者 Yuhan Li,Jian Wu,Zhiwei Yu,Börje F. Karlsson,Wei Shen,Manabu Okumura,Chin-Yew Lin
発行日 2023-11-15 02:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク