Wiki-TabNER: Integrating Named Entity Recognition into Wikipedia Tables

要約

表解釈タスクの解決に対する関心は年々高まっているが、それでもなお、過度に単純化された可能性のある既存のデータセットに依存している。これは、徹底的な評価のためのデータセットの有効性を低下させ、実世界に現れる表を正確に表現できない可能性がある。既存のベンチマークデータセットを充実させるために、我々は新しい、より挑戦的なデータセットを抽出し、注釈を付ける。提案するWiki-TabNERデータセットは、セルごとに複数のエンティティを含む複雑なテーブルを特徴としており、名前付きエンティティはDBpediaクラスを用いてラベル付けされている。このデータセットは、テーブル内の名前付きエンティティ認識(NER)タスクを扱うために特別に設計されているが、エンティティリンキングタスクを評価するための、より困難なデータセットとしても利用できる。本論文では、Wiki-TabNERデータセットの特徴と、ラベリングプロセスについて述べる。また、新しい大規模言語モデルをテーブル内NERタスクで評価するためのプロンプトフレームワークを提案する。最後に、モデルが遭遇した課題を洞察し、提案されたデータセットの限界を理解するために、定性的な分析を行う。

要約(オリジナル)

Interest in solving table interpretation tasks has grown over the years, yet it still relies on existing datasets that may be overly simplified. This is potentially reducing the effectiveness of the dataset for thorough evaluation and failing to accurately represent tables as they appear in the real-world. To enrich the existing benchmark datasets, we extract and annotate a new, more challenging dataset. The proposed Wiki-TabNER dataset features complex tables containing several entities per cell, with named entities labeled using DBpedia classes. This dataset is specifically designed to address named entity recognition (NER) task within tables, but it can also be used as a more challenging dataset for evaluating the entity linking task. In this paper we describe the distinguishing features of the Wiki-TabNER dataset and the labeling process. In addition, we propose a prompting framework for evaluating the new large language models on the within tables NER task. Finally, we perform qualitative analysis to gain insights into the challenges encountered by the models and to understand the limitations of the proposed~dataset.

arxiv情報

著者 Aneta Koleva,Martin Ringsquandl,Ahmed Hatem,Thomas Runkler,Volker Tresp
発行日 2025-05-02 17:52:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク