STimage-1K4M: A histopathology image-gene expression dataset for spatial transcriptomics

要約

マルチモーダル アルゴリズムの最近の進歩は、大規模な画像テキスト データセットの利用可能性の増加によって推進され、計算病理学を含むさまざまな分野で大きな進歩につながりました。
ただし、既存のほとんどの医用画像テキスト データセットでは、通常、テキストは大規模な病理画像内のサブタイル領域を十分に説明しない高レベルの概要を提供します。
たとえば、画像には癌領域と健康な領域を含む広範な組織領域が含まれている場合がありますが、付随するテキストでは、この画像が癌のスライドであることのみが指定されており、詳細な分析に必要な微妙な詳細が欠けている場合があります。
この研究では、サブタイル画像にゲノム特徴を提供することでこのギャップを埋めるように設計された新しいデータセットである STimage-1K4M を紹介します。
STimage-1K4M には、病理画像内の個々の空間スポットのレベルで遺伝子発現情報を捕捉する、空間トランスクリプトミクス データに由来する 1,149 枚の画像が含まれています。
具体的には、データセット内の各画像は小さなサブ画像タイルに分割され、各タイルは 15,000 ~ 30,000 次元の遺伝子発現とペアになっています。
4,293,195 組のサブタイル画像と遺伝子発現を備えた STimage-1K4M は、前例のない粒度を提供し、マルチモーダル データ解析における幅広い高度な研究、計算病理学などの革新的なアプリケーションへの道を切り開きます。

要約(オリジナル)

Recent advances in multi-modal algorithms have driven and been driven by the increasing availability of large image-text datasets, leading to significant strides in various fields, including computational pathology. However, in most existing medical image-text datasets, the text typically provides high-level summaries that may not sufficiently describe sub-tile regions within a large pathology image. For example, an image might cover an extensive tissue area containing cancerous and healthy regions, but the accompanying text might only specify that this image is a cancer slide, lacking the nuanced details needed for in-depth analysis. In this study, we introduce STimage-1K4M, a novel dataset designed to bridge this gap by providing genomic features for sub-tile images. STimage-1K4M contains 1,149 images derived from spatial transcriptomics data, which captures gene expression information at the level of individual spatial spots within a pathology image. Specifically, each image in the dataset is broken down into smaller sub-image tiles, with each tile paired with 15,000-30,000 dimensional gene expressions. With 4,293,195 pairs of sub-tile images and gene expressions, STimage-1K4M offers unprecedented granularity, paving the way for a wide range of advanced research in multi-modal data analysis an innovative applications in computational pathology, and beyond.

arxiv情報

著者 Jiawen Chen,Muqing Zhou,Wenrong Wu,Jinwei Zhang,Yun Li,Didong Li
発行日 2024-06-10 15:48:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, I.2.10, q-bio.GN パーマリンク