Into the Single Cell Multiverse: an End-to-End Dataset for Procedural Knowledge Extraction in Biomedical Texts

要約

最も一般的に検討されている自然言語処理 (NLP) 情報抽出タスクの多くは、宣言的知識の評価、または事実ベースの情報抽出と考えることができます。
手続き型知識抽出、つまり記述されたプロセスを一連のステップに分割することは、おそらくエンドツーエンドで知識抽出プロセスを捉える構造化データセットが不足しているため、あまり注目されていません。
この満たされていないニーズに対処するために、私たちは FlaMB\’e (Flow annotations for Multiverse Biological entities) を提示します。これは、生物医学テキストの手順的な知識を捕捉する一連の補完的なタスクにわたって、専門家が厳選したデータセットのコレクションです。
このデータセットは、非構造化テキストとして記述される手続き型知識の遍在するソースの 1 つが、その方法論を説明する学術論文内にあるという観察に基づいています。
FlaMB\’e で注釈が付けられたワークフローは、使用されるソフトウェア ツールの数とワークフローの複雑さで悪名高い、単細胞研究の急成長分野のテキストからのものです。
さらに、FlaMB\’e は、私たちの知る限り、生物医学研究領域における知識抽出に不可欠な基本的な生物学的実体である組織/細胞タイプについて、手動で精選された最大の固有表現認識 (NER) および曖昧さ回避 (NED) データセットを提供します。
手続き型知識抽出のための NLP モデルのさらなる開発を可能にする貴重なデータセットを提供するだけでなく、ワークフロー マイニングのプロセスを自動化することは、生物医学研究における再現性の向上にも重要な意味を持ちます。

要約(オリジナル)

Many of the most commonly explored natural language processing (NLP) information extraction tasks can be thought of as evaluations of declarative knowledge, or fact-based information extraction. Procedural knowledge extraction, i.e., breaking down a described process into a series of steps, has received much less attention, perhaps in part due to the lack of structured datasets that capture the knowledge extraction process from end-to-end. To address this unmet need, we present FlaMB\’e (Flow annotations for Multiverse Biological entities), a collection of expert-curated datasets across a series of complementary tasks that capture procedural knowledge in biomedical texts. This dataset is inspired by the observation that one ubiquitous source of procedural knowledge that is described as unstructured text is within academic papers describing their methodology. The workflows annotated in FlaMB\’e are from texts in the burgeoning field of single cell research, a research area that has become notorious for the number of software tools and complexity of workflows used. Additionally, FlaMB\’e provides, to our knowledge, the largest manually curated named entity recognition (NER) and disambiguation (NED) datasets for tissue/cell type, a fundamental biological entity that is critical for knowledge extraction in the biomedical research domain. Beyond providing a valuable dataset to enable further development of NLP models for procedural knowledge extraction, automating the process of workflow mining also has important implications for advancing reproducibility in biomedical research.

arxiv情報

著者 Ruth Dannenfelser,Jeffrey Zhong,Ran Zhang,Vicky Yao
発行日 2023-09-04 21:02:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク