FMT:A Multimodal Pneumonia Detection Model Based on Stacking MOE Framework

要約

人工知能は、肺炎診断の医療画像分析を通じて診断精度を改善する可能性を示しています。
ただし、従来のマルチモーダルアプローチは、不完全なデータやモダリティ損失など、実際の課題に対処できないことがよくあります。
この研究では、柔軟なマルチモーダルトランス(FMT)が提案されました。これは、ResNet-50とBERTを共同表現学習に使用し、その後、臨床モダリティの損失をシミュレートして堅牢性を向上させる動的なマスクされた注意戦略が続きます。
最後に、専門家(MOE)アーキテクチャの連続的な混合を使用して、マルチレベルの決定の改良を達成しました。
小さなマルチモーダル肺炎データセットでの評価後、FMTは94%の精度、95%のリコール、93%F1スコア、シングルモーダルベースライン(ResNet:89%; Bert:79%)を上回る最先端のパフォーマンスを達成し、医療ベンチマーク(90%)を達成しました。
リソースに制約のある医療環境。

要約(オリジナル)

Artificial intelligence has shown the potential to improve diagnostic accuracy through medical image analysis for pneumonia diagnosis. However, traditional multimodal approaches often fail to address real-world challenges such as incomplete data and modality loss. In this study, a Flexible Multimodal Transformer (FMT) was proposed, which uses ResNet-50 and BERT for joint representation learning, followed by a dynamic masked attention strategy that simulates clinical modality loss to improve robustness; finally, a sequential mixture of experts (MOE) architecture was used to achieve multi-level decision refinement. After evaluation on a small multimodal pneumonia dataset, FMT achieved state-of-the-art performance with 94% accuracy, 95% recall, and 93% F1 score, outperforming single-modal baselines (ResNet: 89%; BERT: 79%) and the medical benchmark CheXMed (90%), providing a scalable solution for multimodal diagnosis of pneumonia in resource-constrained medical settings.

arxiv情報

著者 Jingyu Xu,Yang Wang
発行日 2025-03-07 17:52:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク