How many preprints have actually been printed and why: a case study of computer science preprints on arXiv


学術コミュニティにおいて、プレプリントの果たす役割はますます重要になってきている。ジャーナルや学会に正式に投稿する前にプレプリントサーバーに原稿を投稿する研究者を駆り立てる理由は数多くあるが、プレプリントの利用は、特に優先権の主張を巡ってかなりの論争も巻き起こしている。本稿では、2008年から2017年にかけてarXivに投稿されたコンピュータサイエンスのプレプリントのケーススタディを行い、最終的にどれだけのプレプリントが査読付きの場で印刷されたかを定量化する。出版された原稿の中には、タイトルを変えて出版され、arXivでのプレプリントの更新がないものもある。このような原稿の場合、従来のファジィマッチング法では、プレプリントと最終的な出版版を対応付けることができない。この問題に鑑み、我々はBERT(Bidirectional Encoder Representations from Transformers)を用いたセマンティクスに基づくマッピング法を紹介する。この新たなマッピング手法と複数のデータソースを用いて、サンプリングされたプレプリントの66%が変更されていないタイトルで出版され、11%が異なるタイトルやその他の変更を加えて出版されていることを発見した。さらに、なぜこれらのプレプリントが受理され、他のプレプリントが受理されなかったのかを調査するために、さらなる分析を行った。その結果、コンピュータサイエンスの分野では、出版されたプレプリントは、適切な修正、複数の著者による執筆、詳細な抄録と序文、豊富で権威のある参考文献、利用可能なソースコードを特徴としていることが明らかになった。


Preprints play an increasingly critical role in academic communities. There are many reasons driving researchers to post their manuscripts to preprint servers before formal submission to journals or conferences, but the use of preprints has also sparked considerable controversy, especially surrounding the claim of priority. In this paper, a case study of computer science preprints submitted to arXiv from 2008 to 2017 is conducted to quantify how many preprints have eventually been printed in peer-reviewed venues. Among those published manuscripts, some are published under different titles and without an update to their preprints on arXiv. In the case of these manuscripts, the traditional fuzzy matching method is incapable of mapping the preprint to the final published version. In view of this issue, we introduce a semantics-based mapping method with the employment of Bidirectional Encoder Representations from Transformers (BERT). With this new mapping method and a plurality of data sources, we find that 66% of all sampled preprints are published under unchanged titles and 11% are published under different titles and with other modifications. A further analysis was then performed to investigate why these preprints but not others were accepted for publication. Our comparison reveals that in the field of computer science, published preprints feature adequate revisions, multiple authorship, detailed abstract and introduction, extensive and authoritative references and available source code.


著者 Jialiang Lin,Yao Yu,Yu Zhou,Zhiyang Zhou,Xiaodong Shi
発行日 2023-08-03 17:56:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.AI, cs.CL, cs.DL, cs.LG パーマリンク