Hierarchical Classification of Research Fields in the ‘Web of Science’ Using Deep Learning

要約

この論文では、学術出版物をその要約を使用してマルチクラス設定の 3 層の階層ラベル セット (専門分野、分野、サブフィールド) に自動的に分類する階層分類システムを紹介します。
このシステムは、論文による知識の生産と引用による影響の観点から、前述の階層内で研究活動を総合的に分類することを可能にし、それらの活動を複数のカテゴリーに分類することを可能にします。
この分類システムは、Microsoft Academic Graph (バージョン 2018-05-17) の 1 億 6,000 万の抽象スニペットの中から 44 の分野、718 の分野、1,485 のサブフィールドを区別します。
モジュール化および分散された方法でバッチ トレーニングを使用して、単一ラベルおよび複数ラベルの設定で学際的および分野間の分類に対処し、それを可能にしました。
検討したすべてのモデル (畳み込みニューラル ネットワーク、リカレント ニューラル ネットワーク、トランスフォーマー) で合計 3,140 回の実験を実施しました。
分類精度は、単一ラベル分類で 77.13%、複数ラベル分類で 78.19% で、> 90% です。
私たちは、研究テキストと成果を分野に合わせてより適切に調整し、自動化された方法でそれらを適切に分類し、学際性の程度を把握できる能力によって、分類の利点を検証します。
提案されたシステム (事前トレーニングされたモデルのセット) は、将来、科学出版物にインデックスを付けるための対話型システムのバックボーンとして機能する可能性があります。

要約(オリジナル)

This paper presents a hierarchical classification system that automatically categorizes a scholarly publication using its abstract into a three-tier hierarchical label set (discipline, field, subfield) in a multi-class setting. This system enables a holistic categorization of research activities in the mentioned hierarchy in terms of knowledge production through articles and impact through citations, permitting those activities to fall into multiple categories. The classification system distinguishes 44 disciplines, 718 fields and 1,485 subfields among 160 million abstract snippets in Microsoft Academic Graph (version 2018-05-17). We used batch training in a modularized and distributed fashion to address and allow for interdisciplinary and interfield classifications in single-label and multi-label settings. In total, we have conducted 3,140 experiments in all considered models (Convolutional Neural Networks, Recurrent Neural Networks, Transformers). The classification accuracy is > 90% in 77.13% and 78.19% of the single-label and multi-label classifications, respectively. We examine the advantages of our classification by its ability to better align research texts and output with disciplines, to adequately classify them in an automated way, and to capture the degree of interdisciplinarity. The proposed system (a set of pre-trained models) can serve as a backbone to an interactive system for indexing scientific publications in the future.

arxiv情報

著者 Susie Xi Rao,Peter H. Egger,Ce Zhang
発行日 2023-07-11 16:42:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.DL, cs.LG, I.2 パーマリンク