PlantBert: An Open Source Language Model for Plant Science

要約

トランスベースの言語モデルの急速な進歩は、生物医学および臨床の自然言語処理における触媒的なブレークスルーを触媒しています。
ただし、植物科学はそのようなドメインに適応したツールによって著しくサービスを受けていないままです。
この作業では、植物のストレス応答文献から構造化された知識を抽出するために特別に調整された高性能でオープンソース言語モデルであるPlantbertを提示します。
デルバータの建築に基づいて構築されており、その脱目のある注意と堅牢な文脈エンコーディングプラントベルトで知られていることは、エキスパートが発音したアブストラクトの細心の注意を払ってキュレーションされたコーパスで微調整されており、レンズ豆(レンズキュリナリス)に重点を置いて、異なる生物的および生物性ストレッサーに対する反応があります。
私たちの方法論では、トランスベースのモデリングとルール強化言語のポストプロセスとオントロジーに基づいたエンティティの正規化を組み合わせて、Plantbertが精度と意味の忠実度と生物学的に意味のある関係を捉えることができます。
基礎となるコーパスは、植物適応の分子、生理学的、生化学的、および農学的な側面を包含する作物オントロジーに沿った階層スキーマを使用して注釈されます。
Plantbertは、エンティティタイプ全体で強力な一般化機能を示し、低リソースの科学分野での堅牢なドメイン適応の実現可能性を実証しています。
高解像度のエンティティ認識のためのスケーラブルで再現可能なフレームワークを提供することにより、Plantbertは農業NLPの重要なギャップを埋め、植物のゲノミクス、フェノミクス、および農業知識の発見におけるインテリジェントなデータ駆動型システムの道を開きます。
私たちのモデルは、透明性を促進し、計算植物科学における学際的な革新を加速するために公開されています。

要約(オリジナル)

The rapid advancement of transformer-based language models has catalyzed breakthroughs in biomedical and clinical natural language processing; however, plant science remains markedly underserved by such domain-adapted tools. In this work, we present PlantBert, a high-performance, open-source language model specifically tailored for extracting structured knowledge from plant stress-response literature. Built upon the DeBERTa architecture-known for its disentangled attention and robust contextual encoding-PlantBert is fine-tuned on a meticulously curated corpus of expert-annotated abstracts, with a primary focus on lentil (Lens culinaris) responses to diverse abiotic and biotic stressors. Our methodology combines transformer-based modeling with rule-enhanced linguistic post-processing and ontology-grounded entity normalization, enabling PlantBert to capture biologically meaningful relationships with precision and semantic fidelity. The underlying corpus is annotated using a hierarchical schema aligned with the Crop Ontology, encompassing molecular, physiological, biochemical, and agronomic dimensions of plant adaptation. PlantBert exhibits strong generalization capabilities across entity types and demonstrates the feasibility of robust domain adaptation in low-resource scientific fields. By providing a scalable and reproducible framework for high-resolution entity recognition, PlantBert bridges a critical gap in agricultural NLP and paves the way for intelligent, data-driven systems in plant genomics, phenomics, and agronomic knowledge discovery. Our model is publicly released to promote transparency and accelerate cross-disciplinary innovation in computational plant science.

arxiv情報

著者 Hiba Khey,Amine Lakhder,Salma Rouichi,Imane El Ghabi,Kamal Hejjaoui,Younes En-nahli,Fahd Kalloubi,Moez Amri
発行日 2025-06-10 15:24:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク