The SourceData-NLP dataset: integrating curation into scientific publishing for training large language models

要約

はじめに: 科学出版の状況は急速に拡大しており、研究者が文献の進化を常に最新の状態に保つことが課題となっています。
自然言語処理 (NLP) は、この膨大な量の出版物やプレプリントからの知識の抽出を自動化する強力なアプローチとして登場しました。
固有表現認識 (NER) や固有表現リンク (NEL) などのタスクは、コンテキスト依存の意味解釈と組み合わせて、構造化情報を抽出し、重要な概念を明らかにするための有望で補完的なアプローチを提供します。
結果: 出版プロセス中の日常的な論文のキュレーションを通じて作成された SourceData-NLP データセットを紹介します。
このデータセットのユニークな特徴は、図の凡例における生体エンティティの注釈に重点を置いている点です。
私たちは、生物医学的実体の 8 つのクラス (小分子、遺伝子産物、細胞内成分、細胞株、細胞型、組織、生物、疾患)、実験計画におけるそれらの役割、および追加クラスとしての実験方法の性質に注釈を付けます。
SourceData-NLP には、分子生物学および細胞生物学の 3,223 論文の 18,689 個の図から厳選された、620,000 以上の注釈付き生物医学的実体が含まれています。
NER 用に SourceData-NLP データセットで微調整された 2 つのトランスフォーマーベースのモデルである BioLinkBERT と PubmedBERT を評価することによって、データセットの有用性を説明します。
また、エンティティが制御された介入のターゲットであるか測定の対象であるかを推論する、新しいコンテキスト依存の意味論的タスクも導入します。
結論: SourceData-NLP のスケールは、キュレーションを出版に統合することの価値を強調しています。
さらに、SourceData-NLP でトレーニングされたモデルにより、文献から因果関係の仮説を抽出し、それらをナレッジ グラフに組み立てることができるツールの開発が可能になります。

要約(オリジナル)

Introduction: The scientific publishing landscape is expanding rapidly, creating challenges for researchers to stay up-to-date with the evolution of the literature. Natural Language Processing (NLP) has emerged as a potent approach to automating knowledge extraction from this vast amount of publications and preprints. Tasks such as Named-Entity Recognition (NER) and Named-Entity Linking (NEL), in conjunction with context-dependent semantic interpretation, offer promising and complementary approaches to extracting structured information and revealing key concepts. Results: We present the SourceData-NLP dataset produced through the routine curation of papers during the publication process. A unique feature of this dataset is its emphasis on the annotation of bioentities in figure legends. We annotate eight classes of biomedical entities (small molecules, gene products, subcellular components, cell lines, cell types, tissues, organisms, and diseases), their role in the experimental design, and the nature of the experimental method as an additional class. SourceData-NLP contains more than 620,000 annotated biomedical entities, curated from 18,689 figures in 3,223 papers in molecular and cell biology. We illustrate the dataset’s usefulness by assessing BioLinkBERT and PubmedBERT, two transformers-based models, fine-tuned on the SourceData-NLP dataset for NER. We also introduce a novel context-dependent semantic task that infers whether an entity is the target of a controlled intervention or the object of measurement. Conclusions: SourceData-NLP’s scale highlights the value of integrating curation into publishing. Models trained with SourceData-NLP will furthermore enable the development of tools able to extract causal hypotheses from the literature and assemble them into knowledge graphs.

arxiv情報

著者 Jorge Abreu-Vicente,Hannah Sonntag,Thomas Eidens,Thomas Lemberger
発行日 2023-10-31 13:22:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク