要約
言語モデル(LMS)の最近の急速な進歩は、医療時系列のテキストマルチモーダル学習に注目を集めています。
ただし、既存の対照学習ベースとプロンプトベースのLMアプローチは偏りがあり、テキストモダリティを二次的なものとして扱いながら、時系列モダリティに主要な役割を割り当てることがよくあります。
これらのアプローチを、臨床報告のようなテキストモダリティに組み込まれたユニークで重要なタスク関連情報を見落とす可能性があるため、これらのアプローチを一時的なパラダイムの下で分類し、さまざまなモダリティの相互利益と相補性を完全に活用できません。
このギャップを埋めるために、私たちは、モダリティがプライマリとして機能しながら他の人によって強化され、それによってモダリティ固有の情報を効果的にキャプチャし、クロスモーダル相互作用を促進できる、モダリティがプライマリとして機能することを可能にする新しいテキストと時代のマルチモーダル学習パラダイムを提案します。
具体的には、一時的なプライマリーとテキストプライマリーモデリングを同時に実装するために、デュアルアダプターで構成される言語モデルであるMedualTimeを設計します。
各アダプター内で、軽量適応トークンがLMの最上層に注入され、高レベルのモダリティ融合を促進します。
デュアルアダプターによる共有LMパイプラインは、アダプターアラインメントを実現するだけでなく、効率的な微調整を可能にし、計算リソースを削減します。
経験的には、MedualTimeは医療データの優れたパフォーマンスを示し、監視付き設定で8%の精度と12%F1の顕著な改善を達成します。
さらに、Medualtimeの移転性は、粗粒から細粒の医療データへの少数の標識転送実験によって検証されます。
https://github.com/start2020/medualtime
要約(オリジナル)
The recent rapid advancements in language models (LMs) have garnered attention in medical time series-text multimodal learning. However, existing contrastive learning-based and prompt-based LM approaches tend to be biased, often assigning a primary role to time series modality while treating text modality as secondary. We classify these approaches under a temporal-primary paradigm, which may overlook the unique and critical task-relevant information embedded in text modality like clinical reports, thus failing to fully leverage mutual benefits and complementarity of different modalities. To fill this gap, we propose a novel textual-temporal multimodal learning paradigm that enables either modality to serve as the primary while being enhanced by the other, thereby effectively capturing modality-specific information and fostering cross-modal interaction. In specific, we design MedualTime, a language model composed of dual adapters to implement temporal-primary and textual-primary modeling simultaneously. Within each adapter, lightweight adaptation tokens are injected into the top layers of LM to encourage high-level modality fusion. The shared LM pipeline by dual adapters not only achieves adapter alignment but also enables efficient fine-tuning, reducing computational resources. Empirically, MedualTime demonstrates superior performance on medical data, achieving notable improvements of 8% accuracy and 12% F1 in supervised settings. Furthermore, MedualTime’s transferability is validated by few-shot label transfer experiments from coarse-grained to fine-grained medical data. https://github.com/start2020/MedualTime
arxiv情報
著者 | Jiexia Ye,Weiqi Zhang,Ziyue Li,Jia Li,Meng Zhao,Fugee Tsung |
発行日 | 2025-05-12 13:27:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google