Enriched BERT Embeddings for Scholarly Publication Classification

要約

学術文献の急速な拡大とプレプリントの急増に伴い、研究者は大量の論文を手作業で整理してラベルを付けるという課題に直面しています。
NSLP 2024 ForRC 共有タスク I は、コンテストとして組織されたこの課題に取り組みます。
目標は、特定の論文の研究分野の Open Research Knowledge Graph (ORKG) 分類から 123 の事前定義されたクラスの 1 つを予測できる分類器を開発することです。この論文では、その結果を紹介します。
まず、データセット (ORKG および arXiv からの英語の学術論文を含む) を強化し、次にさまざまな事前トレーニング済み言語モデル (PLM)、特に BERT を活用して、この下流タスクの転移学習におけるそれらの有効性を調査します。
私たちの実験には、SciBERT、SciNCL、SPECTER2 などの科学タスクに最適化されたさまざまな PLM を使用した、特徴ベースの微調整された転移学習アプローチが含まれています。
私たちはハイパーパラメーターの調整を実施し、OpenAlex、Semantic Sc​​holar、Crossref などの書誌データベースからのデータ拡張の影響を調査します。
私たちの結果は、事前トレーニング済みモデルを微調整することで分類パフォーマンスが大幅に向上し、SPECTER2 が最も正確なモデルとして浮上していることを示しています。
さらに、追加のメタデータでデータセットを強化すると、特に S2AG、OpenAlex、Crossref からの情報を統合する場合に、分類結果が大幅に向上します。
最もパフォーマンスの高いアプローチでは、加重 F1 スコア 0.7415 が達成されます。
全体として、私たちの研究は学術出版物の分類のための信頼できる自動システムの進歩に貢献し、骨の折れる手作業によるキュレーションプロセスに潜在的な解決策を提供し、それによって研究者が関連リソースを効率的に見つけることを容易にします。

要約(オリジナル)

With the rapid expansion of academic literature and the proliferation of preprints, researchers face growing challenges in manually organizing and labeling large volumes of articles. The NSLP 2024 FoRC Shared Task I addresses this challenge organized as a competition. The goal is to develop a classifier capable of predicting one of 123 predefined classes from the Open Research Knowledge Graph (ORKG) taxonomy of research fields for a given article.This paper presents our results. Initially, we enrich the dataset (containing English scholarly articles sourced from ORKG and arXiv), then leverage different pre-trained language Models (PLMs), specifically BERT, and explore their efficacy in transfer learning for this downstream task. Our experiments encompass feature-based and fine-tuned transfer learning approaches using diverse PLMs, optimized for scientific tasks, including SciBERT, SciNCL, and SPECTER2. We conduct hyperparameter tuning and investigate the impact of data augmentation from bibliographic databases such as OpenAlex, Semantic Scholar, and Crossref. Our results demonstrate that fine-tuning pre-trained models substantially enhances classification performance, with SPECTER2 emerging as the most accurate model. Moreover, enriching the dataset with additional metadata improves classification outcomes significantly, especially when integrating information from S2AG, OpenAlex and Crossref. Our best-performing approach achieves a weighted F1-score of 0.7415. Overall, our study contributes to the advancement of reliable automated systems for scholarly publication categorization, offering a potential solution to the laborious manual curation process, thereby facilitating researchers in efficiently locating relevant resources.

arxiv情報

著者 Benjamin Wolff,Eva Seidlmayer,Konrad U. Förstner
発行日 2024-05-07 09:05:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク