Deep Author Name Disambiguation using DBLP Data

要約

学術界では、科学者の数が年々増加しており、同じ名前の著者の数も増加しています。
したがって、新しく出版された論文をそれぞれの著者に割り当てることは困難です。
したがって、著者名のあいまいさ (ANA) は、デジタル図書館における重大な未解決問題と見なされています。
この論文では、共著者と研究分野を活用して、著者名を実世界の実体にリンクする著者名曖昧性解消 (AND) アプローチを提案します。
この目的のために、約 260 万人の共著者が執筆した 500 万を超える書誌レコードを含む DBLP リポジトリから収集したデータを使用しています。
私たちのアプローチでは、最初に、姓と名のイニシャルが同じ著者をグループ化します。
各グループ内の著者は、対応する著者の有効な出版物のタイトルによって表される、共著者と研究分野との関係をキャプチャすることによって識別されます。
この目的のために、共著者とタイトルの表現から学習するニューラル ネットワーク モデルをトレーニングします。
大規模なデータセットで広範な実験を実施することにより、アプローチの有効性を検証しました。

要約(オリジナル)

In the academic world, the number of scientists grows every year and so does the number of authors sharing the same names. Consequently, it challenging to assign newly published papers to their respective authors. Therefore, Author Name Ambiguity (ANA) is considered a critical open problem in digital libraries. This paper proposes an Author Name Disambiguation (AND) approach that links author names to their real-world entities by leveraging their co-authors and domain of research. To this end, we use data collected from the DBLP repository that contains more than 5 million bibliographic records authored by around 2.6 million co-authors. Our approach first groups authors who share the same last names and same first name initials. The author within each group is identified by capturing the relation with his/her co-authors and area of research, represented by the titles of the validated publications of the corresponding author. To this end, we train a neural network model that learns from the representations of the co-authors and titles. We validated the effectiveness of our approach by conducting extensive experiments on a large dataset.

arxiv情報

著者 Zeyd Boukhers,Nagaraj Bahubali Asundi
発行日 2023-03-17 15:50:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DL, cs.LG パーマリンク