要約
私たちは、トランスフォーマー アーキテクチャに基づく大規模言語モデル (LLM) により、HPO に記載されていない用語を含む臨床表現型用語の自動検出が可能になると仮説を立てています。
この研究では、Bio+Clinical BERT を事前学習済みモデルとして利用する BERT ベースのモデルである PhenoBCBERT と、オープンを含む多様な GPT モデルから初期化できる GPT ベースのモデルである PhenoGPT の 2 種類のモデルを開発しました。
– GPT-J、Falcon、LLaMA などのソース バージョンと、GPT-3 や GPT-3.5 などのクローズド ソース バージョン。
私たちは、ルールベースの手法と深層学習手法を組み合わせた最近開発された HPO 認識ツールである PhenoTagger と、私たちの手法を比較しました。
私たちの方法は、HPO によって特徴付けられない新しい表現型概念を含む、より多くの表現型概念を抽出できることを発見しました。
また、生物医学文献のケーススタディを実行して、新しい表現型情報をどのように認識して抽出できるかを説明しました。
表現型タグ付けについて、現在の BERT ベースのモデルと GPT ベースのモデルを、モデル アーキテクチャ、メモリ使用量、速度、精度、プライバシー保護などの複数の側面から比較しました。
また、HPO 用語のタグ付けを改善するために、トランスフォーマー モデルに否定ステップと HPO 正規化層を追加することについても説明しました。
結論として、PhenoBCBERT と PhenoGPT を使用すると、臨床ノートや生物医学文献から表現型用語を自動で発見できるようになり、下流タスクの自動化が容易になり、ヒトの疾患に関する新しい生物学的洞察を導き出すことができます。
要約(オリジナル)
We hypothesize that large language models (LLMs) based on the transformer architecture can enable automated detection of clinical phenotype terms, including terms not documented in the HPO. In this study, we developed two types of models: PhenoBCBERT, a BERT-based model, utilizing Bio+Clinical BERT as its pre-trained model, and PhenoGPT, a GPT-based model that can be initialized from diverse GPT models, including open-source versions such as GPT-J, Falcon, and LLaMA, as well as closed-source versions such as GPT-3 and GPT-3.5. We compared our methods with PhenoTagger, a recently developed HPO recognition tool that combines rule-based and deep learning methods. We found that our methods can extract more phenotype concepts, including novel ones not characterized by HPO. We also performed case studies on biomedical literature to illustrate how new phenotype information can be recognized and extracted. We compared current BERT-based versus GPT-based models for phenotype tagging, in multiple aspects including model architecture, memory usage, speed, accuracy, and privacy protection. We also discussed the addition of a negation step and an HPO normalization layer to the transformer models for improved HPO term tagging. In conclusion, PhenoBCBERT and PhenoGPT enable the automated discovery of phenotype terms from clinical notes and biomedical literature, facilitating automated downstream tasks to derive new biological insights on human diseases.
arxiv情報
著者 | Jingye Yang,Cong Liu,Wendy Deng,Da Wu,Chunhua Weng,Yunyun Zhou,Kai Wang |
発行日 | 2023-11-09 15:18:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google