Cracking Double-Blind Review: Authorship Attribution with Deep Learning

要約

二重盲検査読は、公正で偏りのない、事実中心の科学的議論を保証すると考えられているため、学術研究の柱とみなされている。しかし、経験豊富な研究者は、匿名の投稿がどの研究グループから発信されたものかを正確に推測できることが多く、査読プロセスに偏りが生じる。本研究では、本文の内容と書誌中の著者名のみを用いて匿名原稿を著者に帰属させる、変換器ベースのニューラルネットワークアーキテクチャを提示する。本手法を訓練し評価するために、これまでで最大の著者識別データセットを作成した。これはarXivで公開されている全ての研究論文を利用したもので、200万以上の原稿に相当する。最大2,000の異なる著者を持つarXivサブセットにおいて、我々の手法は前例のない著者帰属精度を達成し、最大73%の論文が正しく帰属した。十分な計算能力が学術コミュニティに広く利用されるようになれば、提案手法はさらに大規模なデータセットにも適用可能であることを強調するために、スケーリング分析を行う。さらに、匿名原稿の全著者を特定することを目的とした場合の帰属精度を分析する。我々の手法のおかげで、匿名の著作物の著者を予測することができるだけでなく、論文を帰属させる重要な側面に関する実証的証拠も提供することができる。我々の実験を再現するために必要なツールをオープンソース化している。

要約(オリジナル)

Double-blind peer review is considered a pillar of academic research because it is perceived to ensure a fair, unbiased, and fact-centered scientific discussion. Yet, experienced researchers can often correctly guess from which research group an anonymous submission originates, biasing the peer-review process. In this work, we present a transformer-based, neural-network architecture that only uses the text content and the author names in the bibliography to attribute an anonymous manuscript to an author. To train and evaluate our method, we created the largest authorship identification dataset to date. It leverages all research papers publicly available on arXiv amounting to over 2 million manuscripts. In arXiv-subsets with up to 2,000 different authors, our method achieves an unprecedented authorship attribution accuracy, where up to 73% of papers are attributed correctly. We present a scaling analysis to highlight the applicability of the proposed method to even larger datasets when sufficient compute capabilities are more widely available to the academic community. Furthermore, we analyze the attribution accuracy in settings where the goal is to identify all authors of an anonymous manuscript. Thanks to our method, we are not only able to predict the author of an anonymous work, but we also provide empirical evidence of the key aspects that make a paper attributable. We have open-sourced the necessary tools to reproduce our experiments.

arxiv情報

著者 Leonard Bauersfeld,Angel Romero,Manasi Muglikar,Davide Scaramuzza
発行日 2023-07-03 12:49:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク