Advancing Medical Representation Learning Through High-Quality Data

要約

医学的視覚言語データセットの規模が増えているにもかかわらず、モデルのパフォーマンスに対するデータセットの品質の影響は引き続き未調査のままです。
PubMed Centralの高品質の医療データセットであるOpen-PMCを紹介します。画像モダリティアノテーション、サブ図、および要約されたテキスト参照が豊富な220万の画像テキストペアを含みます。
特に、テキスト内の参照は、より豊かな医学的コンテキストを提供し、キャプションに通常見られる抽象情報を超えて拡張されます。
広範な実験を通じて、検索およびゼロショット分類タスク全体で、オープンPMCをより大きなデータセットに対してベンチマークします。
私たちの結果は、データセットの品質が大幅にパフォーマンスの向上を獲得するだけでなく、単にサイズを駆動することを示しています。
特徴表現の詳細な分析でベンチマークを補完します。
私たちの調査結果は、マルチモーダルメディカルAIの前進におけるデータキュレーションの質の重要な役割を強調しています。
トレーニングされたモデルとコードベースとともに、Open-PMCをリリースします。

要約(オリジナル)

Despite the growing scale of medical Vision-Language datasets, the impact of dataset quality on model performance remains under-explored. We introduce Open-PMC, a high-quality medical dataset from PubMed Central, containing 2.2 million image-text pairs, enriched with image modality annotations, subfigures, and summarized in-text references. Notably, the in-text references provide richer medical context, extending beyond the abstract information typically found in captions. Through extensive experiments, we benchmark Open-PMC against larger datasets across retrieval and zero-shot classification tasks. Our results show that dataset quality-not just size-drives significant performance gains. We complement our benchmark with an in-depth analysis of feature representation. Our findings highlight the crucial role of data curation quality in advancing multimodal medical AI. We release Open-PMC, along with the trained models and our codebase.

arxiv情報

著者 Negin Baghbanzadeh,Adibvafa Fallahpour,Yasaman Parhizkar,Franklin Ogidi,Shuvendu Roy,Sajad Ashkezari,Vahid Reza Khazaie,Michael Colacci,Ali Etemad,Arash Afkanpour,Elham Dolatabadi
発行日 2025-03-18 16:10:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク