S2abEL: A Dataset for Entity Linking from Scientific Tables

要約

【タイトル】
S2abEL:科学的な表からのエンティティリンキングのためのデータセット
【要約】
– エンティティリンキング(EL)は、テキストの言及をその知識ベース内の対応するエントリにリンクするタスクであり、多くの知識に基づくNLPアプリケーションにとって重要です。
– 科学論文の表に適用される場合、ELは、高度な科学的な質問応答と分析が可能になる、大規模な科学知識ベースへの一歩となります。
– 科学的な表のELは、科学的な知識ベースが非常に不完全であり、表の言及を曖昧にすることは、通常、論文のテキストを理解する必要があるため、特に困難です。
– 私たちは、科学的な表におけるELのための最初のデータセットであるS2abELを紹介します。
– S2abELは機械学習の結果表のELに重点を置き、732の表から8,429のセルについて、手動でラベル付けされたセルタイプ、属性ソース、およびPaperswithCodeタクソノミからのエンティティリンクを含んでいます。
– 科学的な表のELに対して、多くの知識ベース外の言及が含まれているニューラルベースラインメソッドを導入し、最先端の一般的な表EL法よりも大幅に性能が優れていることを示します。
– 最高のベースラインは人間の性能を下回っており、私たちの分析は改善の余地を示しています。

要約(オリジナル)

Entity linking (EL) is the task of linking a textual mention to its corresponding entry in a knowledge base, and is critical for many knowledge-intensive NLP applications. When applied to tables in scientific papers, EL is a step toward large-scale scientific knowledge bases that could enable advanced scientific question answering and analytics. We present the first dataset for EL in scientific tables. EL for scientific tables is especially challenging because scientific knowledge bases can be very incomplete, and disambiguating table mentions typically requires understanding the papers’s tet in addition to the table. Our dataset, S2abEL, focuses on EL in machine learning results tables and includes hand-labeled cell types, attributed sources, and entity links from the PaperswithCode taxonomy for 8,429 cells from 732 tables. We introduce a neural baseline method designed for EL on scientific tables containing many out-of-knowledge-base mentions, and show that it significantly outperforms a state-of-the-art generic table EL method. The best baselines fall below human performance, and our analysis highlights avenues for improvement.

arxiv情報

著者 Yuze Lou,Bailey Kuehl,Erin Bransom,Sergey Feldman,Aakanksha Naik,Doug Downey
発行日 2023-04-30 02:07:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク