要約
大規模なデータセットでトレーニングされた Foundation モデルは、CV と NLP で最近急増しています。
対照的に、生物医学分野の開発は、データ不足のために大幅に遅れています。
この問題に対処するために、PubMedCentral の OpenAccess サブセットから収集された 160 万の画像キャプション ペアを含む生物医学データセットである PMC-OA を構築してリリースします。これは以前の 8 倍です。
PMC-OA は多様なモダリティや疾患をカバーしており、画像キャプション サンプルの大部分はより細かいレベル、つまりサブフィギュアとサブキャプションに配置されています。
PMC-OA で CLIP スタイルのモデルを事前トレーニングしながら、PMC-CLIP という名前のモデルは、ROCO での画像テキスト検索、MedMNIST 画像分類、Medical VQA、つまり +8.1 など、さまざまなダウンストリーム タスクで最先端の結果を達成します。
画像テキスト検索で % R@10、画像分類で +3.9% の精度。
要約(オリジナル)
Foundation models trained on large-scale dataset gain a recent surge in CV and NLP. In contrast, development in biomedical domain lags far behind due to data scarcity. To address this issue, we build and release PMC-OA, a biomedical dataset with 1.6M image-caption pairs collected from PubMedCentral’s OpenAccess subset, which is 8 times larger than before. PMC-OA covers diverse modalities or diseases, with majority of the image-caption samples aligned at finer-grained level, i.e., subfigure and subcaption. While pretraining a CLIP-style model on PMC-OA, our model named PMC-CLIP achieves state-of-the-art results on various downstream tasks, including image-text retrieval on ROCO, MedMNIST image classification, Medical VQA, i.e. +8.1% R@10 on image-text retrieval, +3.9% accuracy on image classification.
arxiv情報
著者 | Weixiong Lin,Ziheng Zhao,Xiaoman Zhang,Chaoyi Wu,Ya Zhang,Yanfeng Wang,Weidi Xie |
発行日 | 2023-03-13 16:13:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google