Integrating curation into scientific publishing to train AI models

要約

学術論文からのデータの高スループット抽出と構造化されたラベル付けは、下流の機械学習アプリケーションと二次分析を可能にするために重要です。
私たちは、セグメント化された図パネルとキャプションに注釈を付けるために、マルチモーダルなデータ キュレーションを学術出版プロセスに組み込みました。
自然言語処理 (NLP) と元の作成者からの人間参加型フィードバックが組み合わされて、注釈の精度が向上しました。
アノテーションには、8 つのクラスの生体エンティティ (小分子、遺伝子産物、細胞内成分、細胞株、細胞型、組織、生物、疾患) に加えて、実験計画と方法論におけるエンティティの役割を説明する追加のクラスが含まれていました。
結果として得られたデータセットである SourceData-NLP には、分子生物学および細胞生物学の 3,223 件の論文の 18,689 個の図から厳選された、620,000 を超える注釈付きの生物医学的実体が含まれています。
私たちは、固有表現の認識、図のキャプションの構成パネルへのセグメント化、および実体が制御された介入のターゲットであるか測定オブジェクトであるかを評価する新しいコンテキスト依存の意味論的タスクを使用して、AI モデルをトレーニングするためのデータセットの有用性を評価します。
また、図をパネル画像とそれに対応するキャプションにセグメント化するマルチモーダル タスクを実行する際のデータセットの使用法も示します。

要約(オリジナル)

High throughput extraction and structured labeling of data from academic articles is critical to enable downstream machine learning applications and secondary analyses. We have embedded multimodal data curation into the academic publishing process to annotate segmented figure panels and captions. Natural language processing (NLP) was combined with human-in-the-loop feedback from the original authors to increase annotation accuracy. Annotation included eight classes of bioentities (small molecules, gene products, subcellular components, cell lines, cell types, tissues, organisms, and diseases) plus additional classes delineating the entities’ roles in experiment designs and methodologies. The resultant dataset, SourceData-NLP, contains more than 620,000 annotated biomedical entities, curated from 18,689 figures in 3,223 articles in molecular and cell biology. We evaluate the utility of the dataset to train AI models using named-entity recognition, segmentation of figure captions into their constituent panels, and a novel context-dependent semantic task assessing whether an entity is a controlled intervention target or a measurement object. We also illustrate the use of our dataset in performing a multi-modal task for segmenting figures into panel images and their corresponding captions.

arxiv情報

著者 Jorge Abreu-Vicente,Hannah Sonntag,Thomas Eidens,Cassie S. Mitchell,Thomas Lemberger
発行日 2024-09-25 11:22:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク