要約
【タイトル】表の構造認識手法の再現性と複製性に関する研究
【要約】
– AIの分野で研究者たちが公表した研究結果が再現できなかったと報告されたことから、再現性についての問題が浮上している。
– 新しいデータに同じ手法を用いて同じ結果が得られる複製性については、あまり研究が進んでいない。
– 本研究では、デジタル文書の表のセルの場所を特定するAIのタスクである表の構造認識(TSR)の16の論文について、再現性と複製性を調べた。
– 論文の元の著者が提供したコードとデータセットを使用して公表された結果を再現しようと試みた。
– 同様のデータセットと新しいデータセットであるGenTSR(科学論文から抽出された386の注釈付き表)を使用して、複製性を調査した。
– 16の論文のうち、4つで元の論文と一致する結果を再現できた。
– そのうち2つの論文は、一定のIoU値で同様のデータセットを使用して複製できることが特定された。
– 新しいデータセットを使用して複製できる論文はなかった。
– 再現性と複製性の欠如の原因についての観察結果を提供した。
– CodeOceanのhttps://codeocean.com/capsule/6680116/treeにコードとデータ全てが公開されている。
要約(オリジナル)
Concerns about reproducibility in artificial intelligence (AI) have emerged, as researchers have reported unsuccessful attempts to directly reproduce published findings in the field. Replicability, the ability to affirm a finding using the same procedures on new data, has not been well studied. In this paper, we examine both reproducibility and replicability of a corpus of 16 papers on table structure recognition (TSR), an AI task aimed at identifying cell locations of tables in digital documents. We attempt to reproduce published results using codes and datasets provided by the original authors. We then examine replicability using a dataset similar to the original as well as a new dataset, GenTSR, consisting of 386 annotated tables extracted from scientific papers. Out of 16 papers studied, we reproduce results consistent with the original in only four. Two of the four papers are identified as replicable using the similar dataset under certain IoU values. No paper is identified as replicable using the new dataset. We offer observations on the causes of irreproducibility and irreplicability. All code and data are available on Codeocean at https://codeocean.com/capsule/6680116/tree.
arxiv情報
著者 | Kehinde Ajayi,Muntabhir Hasan Choudhury,Sarah Rajtmajer,Jian Wu |
発行日 | 2023-04-20 16:30:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI