BioLORD-2023: Semantic Textual Representations Fusing LLM and Clinical Knowledge Graph Insights

要約

この研究では、生物医学および臨床ドメインのセマンティック モデルのトレーニングにおいて生物医学知識グラフを補完する大規模言語モデルの可能性を調査します。
豊富な UMLS ナレッジ グラフを活用し、最先端の大規模言語モデルを利用して、生物医学の概念と文章の忠実度の高い表現を取得するための新しい最先端のアプローチを提案します。これは 3 つのステップで構成されます。
学習フェーズ、新しい自己蒸留フェーズ、および加重平均フェーズです。
広範な BioLORD テスト スイートとさまざまな下流タスクによる厳格な評価を通じて、以前の最先端技術と比較して一貫した大幅なパフォーマンスの向上を実証しています (例: MedSTS で +2 ポイント、MedNLI-S で +2.5 ポイント、EHR-Rel で +6.1 ポイント)
-B)。
英語用の新​​しい最先端の生物医学モデルに加えて、50 以上の言語と互換性があり、7 つのヨーロッパ言語に合わせて微調整された多言語モデルも抽出してリリースしています。
多くの臨床パイプラインが当社の最新モデルから恩恵を受けることができます。
当社の新しい多言語モデルにより、さまざまな言語が生物医学的意味表現学習の進歩から恩恵を受けることができ、世界中の生物情報学研究者に新たな道が開かれます。
その結果、BioLORD-2023 が将来の生物医学応用のための貴重なツールになることを期待しています。

要約(オリジナル)

In this study, we investigate the potential of Large Language Models to complement biomedical knowledge graphs in the training of semantic models for the biomedical and clinical domains. Drawing on the wealth of the UMLS knowledge graph and harnessing cutting-edge Large Language Models, we propose a new state-of-the-art approach for obtaining high-fidelity representations of biomedical concepts and sentences, consisting of three steps: an improved contrastive learning phase, a novel self-distillation phase, and a weight averaging phase. Through rigorous evaluations via the extensive BioLORD testing suite and diverse downstream tasks, we demonstrate consistent and substantial performance improvements over the previous state of the art (e.g. +2pts on MedSTS, +2.5pts on MedNLI-S, +6.1pts on EHR-Rel-B). Besides our new state-of-the-art biomedical model for English, we also distill and release a multilingual model compatible with 50+ languages and finetuned on 7 European languages. Many clinical pipelines can benefit from our latest models. Our new multilingual model enables a range of languages to benefit from our advancements in biomedical semantic representation learning, opening a new avenue for bioinformatics researchers around the world. As a result, we hope to see BioLORD-2023 becoming a precious tool for future biomedical applications.

arxiv情報

著者 François Remy,Kris Demuynck,Thomas Demeester
発行日 2023-11-27 18:46:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク