BioMamba: A Pre-trained Biomedical Language Representation Model Leveraging Mamba

要約

生物学における自然言語処理 (NLP) の進歩は、複雑な生物医学文献を解釈するモデルの能力にかかっています。
従来のモデルは、この分野の複雑でドメイン固有の言語に苦労することがよくあります。
この論文では、生物医学テキスト マイニング用に特別に設計された事前トレーニング済みモデルである BioMamba を紹介します。
BioMamba は Mamba アーキテクチャに基づいて構築されており、生物医学文献の広範なコーパスに基づいて事前トレーニングされています。
私たちの実証研究は、BioMamba がさまざまな生物医学的タスクにわたって BioBERT や一般ドメイン Mamba のようなモデルよりも大幅に優れていることを示しています。
たとえば、BioMamba は、BioASQ テスト セットにおいて、複雑性を 100 分の 1 に削減し、クロス エントロピー損失を 4 分の 1 に削減します。
モデルのアーキテクチャ、事前トレーニング プロセス、および微調整テクニックの概要を提供します。
さらに、さらなる研究を促進するために、コードとトレーニングされたモデルをリリースします。

要約(オリジナル)

The advancement of natural language processing (NLP) in biology hinges on models’ ability to interpret intricate biomedical literature. Traditional models often struggle with the complex and domain-specific language in this field. In this paper, we present BioMamba, a pre-trained model specifically designed for biomedical text mining. BioMamba builds upon the Mamba architecture and is pre-trained on an extensive corpus of biomedical literature. Our empirical studies demonstrate that BioMamba significantly outperforms models like BioBERT and general-domain Mamba across various biomedical tasks. For instance, BioMamba achieves a 100 times reduction in perplexity and a 4 times reduction in cross-entropy loss on the BioASQ test set. We provide an overview of the model architecture, pre-training process, and fine-tuning techniques. Additionally, we release the code and trained model to facilitate further research.

arxiv情報

著者 Ling Yue,Sixue Xing,Yingzhou Lu,Tianfan Fu
発行日 2024-08-05 16:21:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク