要約
皮膚診断は、視覚的特徴を特殊な臨床知識と統合する必要がある複雑なマルチモーダルチャレンジを表しています。
Vision-Language Pretraining(VLP)は高度な医療AIを持っていますが、皮膚科におけるその有効性は、テキストの長さの制約と構造化されたテキストの欠如によって制限されています。
このペーパーでは、ゼロショット皮膚科目のタスクのためのマルチアスペクトの知識強化視覚障害前削除フレームワークであるMakeを紹介します。
包括的な皮膚科学的説明には標準テキストの制約を超える複数の知識の側面が必要であることを認識して、我々のフレームワークは次のように紹介します。
事前に臨床的意義に基づいて、さまざまなサブキャプションに優先順位を付けます。
教育リソースから収集された403,563の皮膚画像テキストペアを事前に削除することにより、ゼロショット皮膚疾患分類、概念注釈、およびクロスモーダル検索タスク全体で8つのデータセットで最先端のVLPモデルを大幅に上回ります。
私たちのコードは、https://github.com/siyuanyan1/makeで公開されます。
要約(オリジナル)
Dermatological diagnosis represents a complex multimodal challenge that requires integrating visual features with specialized clinical knowledge. While vision-language pretraining (VLP) has advanced medical AI, its effectiveness in dermatology is limited by text length constraints and the lack of structured texts. In this paper, we introduce MAKE, a Multi-Aspect Knowledge-Enhanced vision-language pretraining framework for zero-shot dermatological tasks. Recognizing that comprehensive dermatological descriptions require multiple knowledge aspects that exceed standard text constraints, our framework introduces: (1) a multi-aspect contrastive learning strategy that decomposes clinical narratives into knowledge-enhanced sub-texts through large language models, (2) a fine-grained alignment mechanism that connects subcaptions with diagnostically relevant image features, and (3) a diagnosis-guided weighting scheme that adaptively prioritizes different sub-captions based on clinical significance prior. Through pretraining on 403,563 dermatological image-text pairs collected from education resources, MAKE significantly outperforms state-of-the-art VLP models on eight datasets across zero-shot skin disease classification, concept annotation, and cross-modal retrieval tasks. Our code will be made publicly available at https: //github.com/SiyuanYan1/MAKE.
arxiv情報
著者 | Siyuan Yan,Xieji Li,Ming Hu,Yiwen Jiang,Zhen Yu,Zongyuan Ge |
発行日 | 2025-05-14 13:24:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google