Extracting Information in a Low-resource Setting: Case Study on Bioinformatics Workflows

要約

バイオインフォマティクスのワークフローは、複雑な生物学的データ分析に不可欠であり、多くの場合、科学記事で公開リポジトリのソースコードを含む記事で説明されています。
記事から詳細なワークフロー情報を抽出すると、アクセシビリティと再利用性が向上する可能性がありますが、限られた注釈付きコーパスによって妨げられます。
これに対処するために、この問題を低リソース抽出タスクとして組み立て、4つの戦略をテストしました。1)調整された注釈付きコーパスの作成、2)既存および新しいコーパスを備えたマスクされた言語モデルを使用して、自己回復言語モデルを使用して、nerを使用して、ワークフローの知識を統合します。
16のエンティティで注釈された52の記事の新しいコーパスであるBiotoflowを使用して、ScibertベースのNERモデルは70.4 F-Measureを達成し、アノテーター間契約に匹敵します。
知識統合は特定のエンティティのパフォーマンスを改善しましたが、情報スキーマ全体であまり効果的ではありませんでした。
私たちの結果は、バイオインフォマティクスワークフローの高性能情報抽出が達成可能であることを示しています。

要約(オリジナル)

Bioinformatics workflows are essential for complex biological data analyses and are often described in scientific articles with source code in public repositories. Extracting detailed workflow information from articles can improve accessibility and reusability but is hindered by limited annotated corpora. To address this, we framed the problem as a low-resource extraction task and tested four strategies: 1) creating a tailored annotated corpus, 2) few-shot named-entity recognition (NER) with an autoregressive language model, 3) NER using masked language models with existing and new corpora, and 4) integrating workflow knowledge into NER models. Using BioToFlow, a new corpus of 52 articles annotated with 16 entities, a SciBERT-based NER model achieved a 70.4 F-measure, comparable to inter-annotator agreement. While knowledge integration improved performance for specific entities, it was less effective across the entire information schema. Our results demonstrate that high-performance information extraction for bioinformatics workflows is achievable.

arxiv情報

著者 Clémence Sebe,Sarah Cohen-Boulakia,Olivier Ferret,Aurélie Névéol
発行日 2025-03-10 14:00:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク