Domain-invariant Clinical Representation Learning by Bridging Data Distribution Shift across EMR Datasets

要約

新興疾患に関する情報が限られているため、症状に気づき、認識することが難しく、臨床介入の余地が無視される可能性があります。
効果的な予後モデルは、医師が正しい診断を下し、個別の治療計画を立案し、好ましくない結果を迅速に防ぐのに役立つと期待されています。
しかし、病気の初期段階では、データ収集と臨床経験が限られていることに加え、プライバシーや倫理上の懸念により、参照用に利用できるデータが制限され、データラベルを正しくマークすることさえ困難になる可能性があります。
さらに、異なる疾患、または同じ疾患の異なるソースの電子医療記録 (EMR) データには、データセット間の特徴の不整合という深刻な問題があり、深層学習モデルの効率を大幅に損なう可能性があります。
この記事では、ソース データセットからターゲット データセットへの遷移モデルを構築するためのドメイン不変表現の学習方法を紹介します。
異種のドメインで生成された特徴量の分布シフトを制限することにより、下流のタスクにのみ相対するドメイン不変特徴量が捕捉されるため、さまざまなタスク ドメインにわたって統一されたドメイン不変エンコーダーを育成して、より優れた特徴表現を実現します。
いくつかのターゲットタスクの実験結果は、私たちが提案したモデルが競合するベースライン手法よりも優れており、特に限られたデータ量を扱う場合にトレーニングの収束率が高いことを示しています。
新たに出現したパンデミックやその他の病気に関して、より正確な予測を提供するための私たちの方法の有効性は、数多くの経験によって証明されています。

要約(オリジナル)

Due to the limited information about emerging diseases, symptoms are hard to be noticed and recognized, so that the window for clinical intervention could be ignored. An effective prognostic model is expected to assist doctors in making right diagnosis and designing personalized treatment plan, so to promptly prevent unfavorable outcomes. However, in the early stage of a disease, limited data collection and clinical experiences, plus the concern out of privacy and ethics, may result in restricted data availability for reference, to the extent that even data labels are difficult to mark correctly. In addition, Electronic Medical Record (EMR) data of different diseases or of different sources of the same disease can prove to be having serious cross-dataset feature misalignment problems, greatly mutilating the efficiency of deep learning models. This article introduces a domain-invariant representation learning method to build a transition model from source dataset to target dataset. By way of constraining the distribution shift of features generated in disparate domains, domain-invariant features that are exclusively relative to downstream tasks are captured, so to cultivate a unified domain-invariant encoder across various task domains to achieve better feature representation. Experimental results of several target tasks demonstrate that our proposed model outperforms competing baseline methods and has higher rate of training convergence, especially in dealing with limited data amount. A multitude of experiences have proven the efficacy of our method to provide more accurate predictions concerning newly emergent pandemics and other diseases.

arxiv情報

著者 Zhongji Zhang,Yuhang Wang,Yinghao Zhu,Xinyu Ma,Tianlong Wang,Chaohe Zhang,Yasha Wang,Liantao Ma
発行日 2024-01-25 18:00:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク