要約
Web テーブルには大量の貴重な知識が含まれており、テーブル解釈 (TI) タスクに取り組むことを目的とした表形式言語モデルにインスピレーションを与えてきました。
このペーパーでは、TI タスクの評価に広く使用されているベンチマーク データセットを分析し、特にエンティティ リンク タスクに焦点を当てます。
私たちの分析により、このデータセットは過度に単純化されており、徹底的な評価の有効性が低下する可能性があり、現実世界に表示されるテーブルを正確に表現できていないことが明らかになりました。
この欠点を克服するために、新しいより困難なデータセットを構築し、注釈を付けます。
新しいデータセットの導入に加えて、エンティティのリンク タスクに対処することを目的とした新しい問題、つまりセル内の名前付きエンティティの認識も導入します。
最後に、この新しい TI タスクに関して新しく開発された大規模言語モデル (LLM) を評価するための刺激的なフレームワークを提案します。
私たちは、さまざまな設定の下で LLM を促す実験を実施します。その際、ランダム選択と類似性に基づく選択の両方を使用して、モデルに提示される例を選択します。
私たちのアブレーション研究は、数回のショットの例の影響についての洞察を得るのに役立ちます。
さらに、モデルが直面する課題を洞察し、提案されたデータセットの限界を理解するために定性分析を実行します。
要約(オリジナル)
Web tables contain a large amount of valuable knowledge and have inspired tabular language models aimed at tackling table interpretation (TI) tasks. In this paper, we analyse a widely used benchmark dataset for evaluation of TI tasks, particularly focusing on the entity linking task. Our analysis reveals that this dataset is overly simplified, potentially reducing its effectiveness for thorough evaluation and failing to accurately represent tables as they appear in the real-world. To overcome this drawback, we construct and annotate a new more challenging dataset. In addition to introducing the new dataset, we also introduce a novel problem aimed at addressing the entity linking task: named entity recognition within cells. Finally, we propose a prompting framework for evaluating the newly developed large language models (LLMs) on this novel TI task. We conduct experiments on prompting LLMs under various settings, where we use both random and similarity-based selection to choose the examples presented to the models. Our ablation study helps us gain insights into the impact of the few-shot examples. Additionally, we perform qualitative analysis to gain insights into the challenges encountered by the models and to understand the limitations of the proposed dataset.
arxiv情報
著者 | Aneta Koleva,Martin Ringsquandl,Ahmed Hatem,Thomas Runkler,Volker Tresp |
発行日 | 2024-03-07 15:22:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google