When an Image is Worth 1,024 x 1,024 Words: A Case Study in Computational Pathology

要約

この技術レポートでは、ギガピクセル画像をエンドツーエンドで処理できるビジョン Transformer である LongViT について説明します。
具体的には、ギガピクセル画像を数百万のパッチのシーケンスに分割し、それらを埋め込みに線形に投影します。
次に、LongNet を使用して非常に長いシーケンスをモデル化し、短距離と長距離の両方の依存関係をキャプチャする表現を生成します。
LongNet の線形計算の複雑さとその分散アルゴリズムにより、計算とメモリの両方の制約を克服できます。
私たちはLongViTを計算病理学の分野に応用し、ギガピクセルの全スライド画像内でのがんの診断と予後診断を目指しています。
実験結果は、LongViT がギガピクセル画像を効果的にエンコードし、がんのサブタイピングと生存予測においてこれまでの最先端の方法よりも優れた性能を発揮することを示しています。
コードとモデルは https://aka.ms/LongViT で入手できます。

要約(オリジナル)

This technical report presents LongViT, a vision Transformer that can process gigapixel images in an end-to-end manner. Specifically, we split the gigapixel image into a sequence of millions of patches and project them linearly into embeddings. LongNet is then employed to model the extremely long sequence, generating representations that capture both short-range and long-range dependencies. The linear computation complexity of LongNet, along with its distributed algorithm, enables us to overcome the constraints of both computation and memory. We apply LongViT in the field of computational pathology, aiming for cancer diagnosis and prognosis within gigapixel whole-slide images. Experimental results demonstrate that LongViT effectively encodes gigapixel images and outperforms previous state-of-the-art methods on cancer subtyping and survival prediction. Code and models will be available at https://aka.ms/LongViT.

arxiv情報

著者 Wenhui Wang,Shuming Ma,Hanwen Xu,Naoto Usuyama,Jiayu Ding,Hoifung Poon,Furu Wei
発行日 2023-12-06 15:40:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク