MIReAD: Simple Method for Learning High-quality Representations from Scientific Documents

要約

タイトル:MIReAD:科学文書から高品質な表現を学習するための簡単な方法

要約:
– 科学文書から意味的に有意義な表現を学ぶことは、学術文献の検索を容易にし、推薦システムのパフォーマンスを向上させることができる。
– 事前に学習した言語モデルは、豊かなテキスト表現を学習することができるが、科学論文の文書レベルの表現を提供することはできない。
– MIReADは、transformerモデルを微調整して、要約に基づいてターゲットジャーナルクラスを予測することにより、科学論文の高品質な表現を学習する簡単な方法を提案している。
– MIReADを2000以上のジャーナルクラスを超える500,000以上のPubMedとarXiv要約でトレーニングし、MIReADが関連する論文の検索、トピックの分類、および文献検索に使用できる表現を生み出すことを示している。
– 科学文書の表現学習のための6つの既存モデルに対して、4つの評価基準を跨いで、MIReADの提案手法が優れていることを示している。

要約(オリジナル)

Learning semantically meaningful representations from scientific documents can facilitate academic literature search and improve performance of recommendation systems. Pre-trained language models have been shown to learn rich textual representations, yet they cannot provide powerful document-level representations for scientific articles. We propose MIReAD, a simple method that learns high-quality representations of scientific papers by fine-tuning transformer model to predict the target journal class based on the abstract. We train MIReAD on more than 500,000 PubMed and arXiv abstracts across over 2,000 journal classes. We show that MIReAD produces representations that can be used for similar papers retrieval, topic categorization and literature search. Our proposed approach outperforms six existing models for representation learning on scientific documents across four evaluation standards.

arxiv情報

著者 Anastasia Razdaibiedina,Alexander Brechalov
発行日 2023-05-07 03:29:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク