要約
数値データを科学文書に正確に転記しなければ、科学者は正確な結論を導き出すことができません。
残念ながら、数値データをある論文から別の論文にコピーするプロセスでは人的ミスが発生しやすくなります。
この論文では、自動テーブル検証 (AutoTV) という新しいタスクを通じてこの課題に対処することを提案します。このタスクの目的は、引用ソースを相互参照することによってテーブル内の数値データの精度を検証することです。
このタスクをサポートするために、arXiv 上のオープンアクセスの学術論文から抽出された表形式のデータで構成される新しいベンチマーク arXiVeri を提案します。
ここでは、2 つの主要な領域におけるテーブル検証ツールのパフォーマンスを評価するためのメトリクスを導入します。(i) ターゲット テーブルに対応する引用文献内のソース テーブルを特定することを目的としたテーブル マッチング、および (ii) ターゲット テーブルに対応する引用文献内のソース テーブルを識別することを目的としたセル マッチング。
ターゲットテーブルとソーステーブル間の共有セルを特定し、それらの行インデックスと列インデックスを正確に識別します。
最新の大規模言語モデル (LLM) の柔軟な機能を活用することで、テーブル検証のためのシンプルなベースラインを提案します。
私たちの調査結果は、OpenAI の GPT-4 のような最先端の LLM であっても、このタスクの複雑さを浮き彫りにしています。
コードとベンチマークは一般に公開されます。
要約(オリジナル)
Without accurate transcription of numerical data in scientific documents, a scientist cannot draw accurate conclusions. Unfortunately, the process of copying numerical data from one paper to another is prone to human error. In this paper, we propose to meet this challenge through the novel task of automatic table verification (AutoTV), in which the objective is to verify the accuracy of numerical data in tables by cross-referencing cited sources. To support this task, we propose a new benchmark, arXiVeri, which comprises tabular data drawn from open-access academic papers on arXiv. We introduce metrics to evaluate the performance of a table verifier in two key areas: (i) table matching, which aims to identify the source table in a cited document that corresponds to a target table, and (ii) cell matching, which aims to locate shared cells between a target and source table and identify their row and column indices accurately. By leveraging the flexible capabilities of modern large language models (LLMs), we propose simple baselines for table verification. Our findings highlight the complexity of this task, even for state-of-the-art LLMs like OpenAI’s GPT-4. The code and benchmark will be made publicly available.
arxiv情報
著者 | Gyungin Shin,Weidi Xie,Samuel Albanie |
発行日 | 2023-06-13 17:59:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google