要約
医療機器のリスクレベルの正確な分類は、規制上の監視と臨床的安全性に不可欠です。
テキストの説明と視覚情報を統合して、デバイスの調節分類を予測するトランスベースのマルチモーダルフレームワークを提示します。
このモデルには、間モーダル依存関係をキャプチャするためのクロスアテンションメカニズムが組み込まれており、限られた監督下での一般化を改善するための自己訓練戦略を採用しています。
実際の規制データセットの実験は、私たちのアプローチが最大90.4%の精度と97.9%のAUROCを達成し、テキストのみ(77.2%)と画像のみ(54.8%)のベースラインを大幅に上回ることを示しています。
標準的なマルチモーダル融合と比較して、自己訓練メカニズムにより、SVMのパフォーマンスが3.3パーセントポイント(87.1%から90.4%)および1.4ポイントをマクロ-F1で改善し、擬似標識が限られた監督下での一般化を効果的に強化できることを示唆しています。
アブレーション研究は、クロスモーダルの注意と自己訓練の両方の補完的な利点をさらに確認します。
要約(オリジナル)
Accurate classification of medical device risk levels is essential for regulatory oversight and clinical safety. We present a Transformer-based multimodal framework that integrates textual descriptions and visual information to predict device regulatory classification. The model incorporates a cross-attention mechanism to capture intermodal dependencies and employs a self-training strategy for improved generalization under limited supervision. Experiments on a real-world regulatory dataset demonstrate that our approach achieves up to 90.4% accuracy and 97.9% AUROC, significantly outperforming text-only (77.2%) and image-only (54.8%) baselines. Compared to standard multimodal fusion, the self-training mechanism improved SVM performance by 3.3 percentage points in accuracy (from 87.1% to 90.4%) and 1.4 points in macro-F1, suggesting that pseudo-labeling can effectively enhance generalization under limited supervision. Ablation studies further confirm the complementary benefits of both cross-modal attention and self-training.
arxiv情報
著者 | Yu Han,Aaron Ceross,Jeroen H. M. Bergmann |
発行日 | 2025-05-01 09:41:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google