Med-gte-hybrid: A contextual embedding transformer model for extracting actionable information from clinical texts

要約

GTE-LARGE SENET TRANSGREMERから派生した新しいコンテキスト埋め込みモデルMed-Gte-Hybridを導入して、非構造化された臨床物語から情報を抽出します。
Med-Gte-Hybridのモデルチューニング戦略は、対照的な学習と非自動エンコーダーを組み合わせています。
Med-Gte-Hybridのパフォーマンスを評価するために、慢性腎臓病(CKD)患者予後、推定糸球体ろ過率(EGFR)予測、および患者死亡率予測など、模倣IVデータセットから抽出された大規模な患者コホートのいくつかの臨床予測タスクを調査します。
さらに、MED-GTEハイブリッドモデルが患者の層別化、クラスタリング、およびテキストの検索を改善するため、大規模なテキスト埋め込みベンチマーク(MTEB)の現在の最先端モデルよりも優れていることを示しています。
私たちの評価のいくつかはCKDに焦点を当てていますが、文の変圧器のハイブリッドチューニングは他の医療ドメインに転送される可能性があり、さまざまなヘルスケアアプリケーションで臨床的意思決定とパーソナライズされた治療経路を改善する可能性があります。

要約(オリジナル)

We introduce a novel contextual embedding model med-gte-hybrid that was derived from the gte-large sentence transformer to extract information from unstructured clinical narratives. Our model tuning strategy for med-gte-hybrid combines contrastive learning and a denoising autoencoder. To evaluate the performance of med-gte-hybrid, we investigate several clinical prediction tasks in large patient cohorts extracted from the MIMIC-IV dataset, including Chronic Kidney Disease (CKD) patient prognosis, estimated glomerular filtration rate (eGFR) prediction, and patient mortality prediction. Furthermore, we demonstrate that the med-gte-hybrid model improves patient stratification, clustering, and text retrieval, thus outperforms current state-of-the-art models on the Massive Text Embedding Benchmark (MTEB). While some of our evaluations focus on CKD, our hybrid tuning of sentence transformers could be transferred to other medical domains and has the potential to improve clinical decision-making and personalised treatment pathways in various healthcare applications.

arxiv情報

著者 Aditya Kumar,Simon Rauch,Mario Cypko,Oliver Amft
発行日 2025-03-12 16:17:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク