EnzChemRED, a rich enzyme chemistry relation extraction dataset

要約

FAIR オープン知識ベースの科学文献から酵素機能の知識を獲得するには、専門家のキュレーションが不可欠ですが、新しい発見や新しい出版の速度に追いつくことはできません。
この研究では、酵素のキュレーションを支援できる (大規模な) 言語モデルなどの自然言語処理 (NLP) 手法の開発をサポートする新しいトレーニングおよびベンチマーク データセットである EnzChemRED (酵素化学関係抽出データセット) を紹介します。
EnzChemRED は、専門家が厳選した 1,210 件の PubMed 抄録で構成されており、酵素とそれらが触媒する化学反応には、UniProt Knowledgebase (UniProtKB) と生物学的対象化学物質 (ChEBI) のオントロジーの識別子を使用して注釈が付けられています。
EnzChemRED を使用して事前トレーニング済みの言語モデルを微調整すると、テキスト内のタンパク質や化学物質の言及を識別する能力 (固有表現認識、つまり NER) と、それらが関与する化学変換を抽出する能力 (関係抽出、つまり NER) が大幅に向上することを示します。
RE)、平均 F1 スコアは NER で 86.30%、化学変換ペアの RE で 86.66%、化学変換ペアと結合酵素の RE で 83.79% でした。
EnzChemRED を使用した微調整後に最もパフォーマンスの高いメソッドを組み合わせて、テキストから知識を抽出するためのエンドツーエンドのパイプラインを作成し、これを PubMed 規模の抄録に適用して、UniProtKB でのキュレーション作業をガイドする文献内の酵素機能のドラフト マップを作成します。
そして反応知識ベース Rhea。
EnzChemRED コーパスは、https://ftp.expasy.org/databases/rhea/nlp/ から無料で入手できます。

要約(オリジナル)

Expert curation is essential to capture knowledge of enzyme functions from the scientific literature in FAIR open knowledgebases but cannot keep pace with the rate of new discoveries and new publications. In this work we present EnzChemRED, for Enzyme Chemistry Relation Extraction Dataset, a new training and benchmarking dataset to support the development of Natural Language Processing (NLP) methods such as (large) language models that can assist enzyme curation. EnzChemRED consists of 1,210 expert curated PubMed abstracts in which enzymes and the chemical reactions they catalyze are annotated using identifiers from the UniProt Knowledgebase (UniProtKB) and the ontology of Chemical Entities of Biological Interest (ChEBI). We show that fine-tuning pre-trained language models with EnzChemRED can significantly boost their ability to identify mentions of proteins and chemicals in text (Named Entity Recognition, or NER) and to extract the chemical conversions in which they participate (Relation Extraction, or RE), with average F1 score of 86.30% for NER, 86.66% for RE for chemical conversion pairs, and 83.79% for RE for chemical conversion pairs and linked enzymes. We combine the best performing methods after fine-tuning using EnzChemRED to create an end-to-end pipeline for knowledge extraction from text and apply this to abstracts at PubMed scale to create a draft map of enzyme functions in literature to guide curation efforts in UniProtKB and the reaction knowledgebase Rhea. The EnzChemRED corpus is freely available at https://ftp.expasy.org/databases/rhea/nlp/.

arxiv情報

著者 Po-Ting Lai,Elisabeth Coudert,Lucila Aimo,Kristian Axelsen,Lionel Breuza,Edouard de Castro,Marc Feuermann,Anne Morgat,Lucille Pourcel,Ivo Pedruzzi,Sylvain Poux,Nicole Redaschi,Catherine Rivoire,Anastasia Sveshnikova,Chih-Hsuan Wei,Robert Leaman,Ling Luo,Zhiyong Lu,Alan Bridge
発行日 2024-04-22 14:18:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク