要約
心電図(ECG)シグナルの正確な解釈は、心血管疾患を診断するために極めて重要です。
ECGシグナルを添付したテキストレポートと統合すると、生理学的データと定性的洞察を組み合わせることにより、臨床診断を強化する大きな可能性がさらに低下します。
ただし、この統合は、固有のモダリティの格差と、堅牢なクロスモーダル学習のためのラベル付きデータの希少性により、大きな課題に直面しています。
これらの障害に対処するために、Contrastive Masked Auto-Encoderアーキテクチャを使用してECGとテキストデータを事前にトレインする新しいフレームワークであるD-Betaを提案します。
D-betaは、生成の強さをブーストされた識別能力と堅牢なクロスモーダル表現を実現するために独自に組み合わせています。
これは、マスクされたモダリティモデリング、専門的な損失関数、およびクロスモーダルアライメントに合わせた改善された負のサンプリング戦略によって達成されます。
多様なダウンストリームタスク全体の5つのパブリックデータセットでの広範な実験は、D-Betaが既存の方法を大幅に上回り、最先端モデルでトレーニングデータを必要とせずにトレーニングデータの1%とゼロショットパフォーマンスで2%のみで15%の平均AUC改善を達成することを示しています。
これらの結果は、D-Betaの有効性を強調し、マルチモーダル表現を通じて自動化された臨床診断を進める可能性を強調しています。
サンプルコードとチェックポイントは、https://github.com/manhph2211/d-betaで利用可能になります。
要約(オリジナル)
The accurate interpretation of Electrocardiogram (ECG) signals is pivotal for diagnosing cardiovascular diseases. Integrating ECG signals with accompanying textual reports further holds immense potential to enhance clinical diagnostics by combining physiological data and qualitative insights. However, this integration faces significant challenges due to inherent modality disparities and the scarcity of labeled data for robust cross-modal learning. To address these obstacles, we propose D-BETA, a novel framework that pre-trains ECG and text data using a contrastive masked auto-encoder architecture. D-BETA uniquely combines the strengths of generative with boosted discriminative capabilities to achieve robust cross-modal representations. This is accomplished through masked modality modeling, specialized loss functions, and an improved negative sampling strategy tailored for cross-modal alignment. Extensive experiments on five public datasets across diverse downstream tasks demonstrate that D-BETA significantly outperforms existing methods, achieving an average AUC improvement of 15% in linear probing with only one percent of training data and 2% in zero-shot performance without requiring training data over state-of-the-art models. These results highlight the effectiveness of D-BETA, underscoring its potential to advance automated clinical diagnostics through multi-modal representations. Our sample code and checkpoint are made available at https://github.com/manhph2211/D-BETA.
arxiv情報
著者 | Hung Manh Pham,Aaqib Saeed,Dong Ma |
発行日 | 2025-05-07 16:04:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google