Enhancing Visual Inspection Capability of Multi-Modal Large Language Models on Medical Time Series with Supportive Conformalized and Interpretable Small Specialized Models

要約

大規模な言語モデル(LLMS)は、医療時代のデータの目視検査において顕著な能力を示し、人間の臨床医に匹敵する習熟度を達成します。
ただし、それらの広い範囲はドメイン固有の精度を制限し、独自の重みは特殊なデータセットの微調整を妨げます。
対照的に、小さな専門モデル(SSM)はターゲットタスクに優れていますが、複雑な臨床的意思決定に必要な文脈上の推論がありません。
これらの課題に対処するために、シームレスにLLMSと統合する意思決定SSMであるコンミル(コンフォーマル化複数のインスタンス学習)を提案します。
複数のインスタンス学習(MIL)を使用して臨床的に重要なシグナルセグメントと校正されたセット値出力のコンフォーマル予測を特定することにより、Conmilは医療時代分析のためのLLMSの解釈機能を強化します。
実験結果は、CONMILがCHATGPT4.0やQWEN2-VL-7Bなどの最先端のLLMのパフォーマンスを大幅に改善することを示しています。
具体的には、\ Conmil {} – サポートされているQWEN2-VL-7Bは、46.13%および13.16%のスタンドアロンLLM精度と比較して、不整脈検出と睡眠段階の自信のあるサンプルで94.92%および96.82%の精度を達成します。
これらの調査結果は、コンミルがタスク固有の精度とより広範なコンテキスト推論を橋渡しする可能性を強調し、より信頼性が高く解釈可能なAI駆動型の臨床決定サポートを可能にします。

要約(オリジナル)

Large language models (LLMs) exhibit remarkable capabilities in visual inspection of medical time-series data, achieving proficiency comparable to human clinicians. However, their broad scope limits domain-specific precision, and proprietary weights hinder fine-tuning for specialized datasets. In contrast, small specialized models (SSMs) excel in targeted tasks but lack the contextual reasoning required for complex clinical decision-making. To address these challenges, we propose ConMIL (Conformalized Multiple Instance Learning), a decision-support SSM that integrates seamlessly with LLMs. By using Multiple Instance Learning (MIL) to identify clinically significant signal segments and conformal prediction for calibrated set-valued outputs, ConMIL enhances LLMs’ interpretative capabilities for medical time-series analysis. Experimental results demonstrate that ConMIL significantly improves the performance of state-of-the-art LLMs, such as ChatGPT4.0 and Qwen2-VL-7B. Specifically, \ConMIL{}-supported Qwen2-VL-7B achieves 94.92% and 96.82% precision for confident samples in arrhythmia detection and sleep staging, compared to standalone LLM accuracy of 46.13% and 13.16%. These findings highlight the potential of ConMIL to bridge task-specific precision and broader contextual reasoning, enabling more reliable and interpretable AI-driven clinical decision support.

arxiv情報

著者 Huayu Li,Xiwen Chen,Ci Zhang,Stuart F. Quan,William D. S. Killgore,Shu-Fen Wung,Chen X. Chen,Geng Yuan,Jin Lu,Ao Li
発行日 2025-01-27 17:07:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.SP パーマリンク