BioT5: Enriching Cross-modal Integration in Biology with Chemical Knowledge and Natural Language Associations

要約

生物学研究の最近の進歩は、分子、タンパク質、自然言語の統合を活用して創薬を強化しています。
しかし、現在のモデルには、無効な分子 SMILE の生成、コンテキスト情報の活用不足、構造化知識と非構造化知識の同等な扱いなど、いくつかの制限があります。
これらの問題に対処するために、私たちは $\mathbf{BioT5}$ を提案します。これは、化学知識と自然言語の関連性を備えた生物学におけるクロスモーダルな統合を強化する包括的な事前トレーニング フレームワークです。
$\mathbf{BioT5}$ は、$100%$ 堅牢な分子表現のために SELFIES を利用し、非構造化生物学文献にある生物実体の周囲のコンテキストから知識を抽出します。
さらに、$\mathbf{BioT5}$ は構造化された知識と非構造化された知識を区別し、情報のより効果的な活用につながります。
微調整後、BioT5 は幅広いタスクにわたって優れたパフォーマンスを示し、生体エンティティの根底にある関係と特性を捕捉する強力な能力を示しています。
私たちのコードは $\href{https://github.com/QizhiPei/BioT5}{Github}$ で入手できます。

要約(オリジナル)

Recent advancements in biological research leverage the integration of molecules, proteins, and natural language to enhance drug discovery. However, current models exhibit several limitations, such as the generation of invalid molecular SMILES, underutilization of contextual information, and equal treatment of structured and unstructured knowledge. To address these issues, we propose $\mathbf{BioT5}$, a comprehensive pre-training framework that enriches cross-modal integration in biology with chemical knowledge and natural language associations. $\mathbf{BioT5}$ utilizes SELFIES for $100%$ robust molecular representations and extracts knowledge from the surrounding context of bio-entities in unstructured biological literature. Furthermore, $\mathbf{BioT5}$ distinguishes between structured and unstructured knowledge, leading to more effective utilization of information. After fine-tuning, BioT5 shows superior performance across a wide range of tasks, demonstrating its strong capability of capturing underlying relations and properties of bio-entities. Our code is available at $\href{https://github.com/QizhiPei/BioT5}{Github}$.

arxiv情報

著者 Qizhi Pei,Wei Zhang,Jinhua Zhu,Kehan Wu,Kaiyuan Gao,Lijun Wu,Yingce Xia,Rui Yan
発行日 2023-10-17 14:55:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, q-bio.BM パーマリンク