Quilt-1M: One Million Image-Text Pairs for Histopathology

要約

最近のマルチモーダル アプリケーションの高速化は、オンラインで入手できる大量の画像データとテキスト データによって可能になりました。
しかし、医療分野、特に組織病理学における同様のデータが不足しているため、同等の進歩が止まっています。
組織病理学について同様の表現学習を可能にするために、私たちは未開発のビデオ リソースである YouTube に注目し、専門の臨床医による貴重な教育用組織病理学ビデオを 1,087 ドルの時間で提供しています。
私たちは YouTube から Quilt を厳選しました。Quilt は、768,826 ドルの画像とテキストのペアで構成される大規模な視覚言語データセットです。
Quilt は、大規模な言語モデル、手作りのアルゴリズム、人間の知識データベース、自動音声認識などのモデルを組み合わせて使用​​して自動的にキュレーションされました。
比較すると、組織病理学のために厳選された最も包括的なデータセットは、約 200$K のサンプルしか蓄積していません。
私たちは Quilt を、Twitter、研究論文、インターネット全般などの他のソースからのデータセットと組み合わせて、さらに大規模なデータセットを作成します。Quilt-1M は、$1$M の画像とテキストのペアのサンプルを含み、最大のビジョン言語としてマークされています。
現在までの組織病理学データセット。
事前トレーニングされた CLIP モデルを微調整することで Quilt-1M の価値を実証します。
私たちのモデルは、$8$の異なるサブ病理の$13$の多様なパッチレベルのデータセットにわたる新しい病理組織画像を分類するためのゼロショットタスクとリニアプロービングタスクの両方で最先端のモデルを上回っており、クロスモーダル検索タスクでも優れています。

要約(オリジナル)

Recent accelerations in multi-modal applications have been made possible with the plethora of image and text data available online. However, the scarcity of analogous data in the medical field, specifically in histopathology, has halted comparable progress. To enable similar representation learning for histopathology, we turn to YouTube, an untapped resource of videos, offering $1,087$ hours of valuable educational histopathology videos from expert clinicians. From YouTube, we curate Quilt: a large-scale vision-language dataset consisting of $768,826$ image and text pairs. Quilt was automatically curated using a mixture of models, including large language models, handcrafted algorithms, human knowledge databases, and automatic speech recognition. In comparison, the most comprehensive datasets curated for histopathology amass only around $200$K samples. We combine Quilt with datasets from other sources, including Twitter, research papers, and the internet in general, to create an even larger dataset: Quilt-1M, with $1$M paired image-text samples, marking it as the largest vision-language histopathology dataset to date. We demonstrate the value of Quilt-1M by fine-tuning a pre-trained CLIP model. Our model outperforms state-of-the-art models on both zero-shot and linear probing tasks for classifying new histopathology images across $13$ diverse patch-level datasets of $8$ different sub-pathologies and cross-modal retrieval tasks.

arxiv情報

著者 Wisdom Oluchi Ikezogwo,Mehmet Saygin Seyfioglu,Fatemeh Ghezloo,Dylan Stefan Chan Geva,Fatwir Sheikh Mohammed,Pavan Kumar Anand,Ranjay Krishna,Linda Shapiro
発行日 2023-06-22 05:01:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク