要約
マルチモーダル大規模言語モデル (MLLM) は、医療分野、特に医療画像処理分野でますます応用されています。
しかし、臨床現場で重要な ECG 信号用の MLLM の開発は、医療画像を超えた大きな課題でした。
これまでの研究では、トレーニング不要の方法で外部分類子を使用して ECG をいくつかのテキスト タグに変換することで、この問題に対処しようと試みてきました。
ただし、このアプローチでは ECG 内の情報が大幅に圧縮され、LLM の推論機能が十分に活用されません。
この研究では、投影層を介して ECG の埋め込みを LLM に直接フィードし、ECG に関するより多くの情報を保持し、LLM の推論能力をより適切に活用します。
私たちの方法は、異なる時間に取得された 2 つの ECG を比較する必要があるという臨床現場での一般的な状況にも効果的に対処できます。
最近の研究では、MLLM は他のモダリティからの入力を無視して、テキスト入力のみに依存して回答を提供する可能性があることが判明しました。
私たちは、ECG MLLM のコンテキストで因果関係の観点からこの現象を分析し、交絡因子である病気の重症度が質問と回答の間に偽の相関を導入し、モデルがこの偽の相関に依存して ECG 入力を無視することを発見しました。
このようなモデルは ECG 入力を理解せず、トレーニング セットとテスト セットで同じ質問の異なる表現が使用される敵対的テストではパフォーマンスが低下します。
バックドア調整の理論に従って、交絡因子の影響を排除するためのバイアスを除去した事前トレーニング方法を設計しました。
私たちのモデルは、敵対的テストの下で ECG-QA タスクで良好なパフォーマンスを示し、ゼロショット機能を実証しました。
興味深いランダム ECG テストにより、モデルが入力 ECG 信号を効果的に理解して利用していることがさらに検証されました。
要約(オリジナル)
Multimodal large language models (MLLMs) are increasingly being applied in the medical field, particularly in medical imaging. However, developing MLLMs for ECG signals, which are crucial in clinical settings, has been a significant challenge beyond medical imaging. Previous studies have attempted to address this by converting ECGs into several text tags using an external classifier in a training-free manner. However, this approach significantly compresses the information in ECGs and underutilizes the reasoning capabilities of LLMs. In this work, we directly feed the embeddings of ECGs into the LLM through a projection layer, retaining more information about ECGs and better leveraging the reasoning abilities of LLMs. Our method can also effectively handle a common situation in clinical practice where it is necessary to compare two ECGs taken at different times. Recent studies found that MLLMs may rely solely on text input to provide answers, ignoring inputs from other modalities. We analyzed this phenomenon from a causal perspective in the context of ECG MLLMs and discovered that the confounder, severity of illness, introduces a spurious correlation between the question and answer, leading the model to rely on this spurious correlation and ignore the ECG input. Such models do not comprehend the ECG input and perform poorly in adversarial tests where different expressions of the same question are used in the training and testing sets. We designed a de-biased pre-training method to eliminate the confounder’s effect according to the theory of backdoor adjustment. Our model performed well on the ECG-QA task under adversarial testing and demonstrated zero-shot capabilities. An interesting random ECG test further validated that our model effectively understands and utilizes the input ECG signal.
arxiv情報
著者 | Haitao Li,Ziyu Li,Yiheng Mao,Ziyi Liu,Zhoujian Sun,Zhengxing Huang |
発行日 | 2024-11-22 08:35:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google