要約
事前トレーニング済み言語モデル (PLM) は、ほとんどの自然言語処理 (NLP) タスクの事実上のパラダイムです。
これは生物医学分野にもメリットがあります。情報学、医学、コンピュータ サイエンス (CS) コミュニティの研究者は、生物医学データセット (生物医学テキスト、電子医療記録、タンパク質、さまざまな生物医学タスクの DNA 配列など) でトレーニングされたさまざまな PLM を提案しています。
ただし、生物医学 PLM の分野横断的な特性により、コミュニティ間での普及が妨げられています。
いくつかの既存の作品は、包括的な比較や議論なしに互いに分離されています。
生物医学PLMとそのアプリケーションの最近の進歩を体系的にレビューするだけでなく、用語とベンチマークを標準化する調査も期待しています。
この論文では、生物医学分野における事前トレーニング済み言語モデルの最近の進歩と、生物医学のダウンストリーム タスクにおけるそれらのアプリケーションを要約します。
特に、動機について議論し、既存の生物医学 PLM の分類法を提案します。
生物医学の下流のタスクでのアプリケーションが徹底的に議論されています。
最後に、研究コミュニティの将来の研究にインスピレーションを与えることができるように、さまざまな制限と将来の傾向を示します。
要約(オリジナル)
Pre-trained language models (PLMs) have been the de facto paradigm for most natural language processing (NLP) tasks. This also benefits biomedical domain: researchers from informatics, medicine, and computer science (CS) communities propose various PLMs trained on biomedical datasets, e.g., biomedical text, electronic health records, protein, and DNA sequences for various biomedical tasks. However, the cross-discipline characteristics of biomedical PLMs hinder their spreading among communities; some existing works are isolated from each other without comprehensive comparison and discussions. It expects a survey that not only systematically reviews recent advances of biomedical PLMs and their applications but also standardizes terminology and benchmarks. In this paper, we summarize the recent progress of pre-trained language models in the biomedical domain and their applications in biomedical downstream tasks. Particularly, we discuss the motivations and propose a taxonomy of existing biomedical PLMs. Their applications in biomedical downstream tasks are exhaustively discussed. At last, we illustrate various limitations and future trends, which we hope can provide inspiration for the future research of the research community.
arxiv情報
著者 | Benyou Wang,Qianqian Xie,Jiahuan Pei,Zhihong Chen,Prayag Tiwari,Zhao Li,Jie fu |
発行日 | 2023-03-12 17:56:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google