SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

要約

計算病理学におけるマルチモーダル大規模言語モデル (MLLM) の進歩にも関わらず、パッチレベルの分析に重点が置かれているため依然として限界があり、スライド全体のレベルで重要なコンテキスト情報が欠落しています。
大規模な命令データセットの欠如とスライド画像全体 (WSI) のギガピクセル規模は、開発上重大な課題を引き起こします。
この論文では、ギガピクセルのスライド全体の画像を理解できる初の視覚言語アシスタントである SlideChat について紹介します。このアシスタントは、多様な病理シナリオにわたって優れたマルチモーダルな会話機能と複雑な指示に対応します。
その開発をサポートするために、4.2K の WSI キャプションと複数のカテゴリを持つ 176K の VQA ペアで構成される WSI 用の最大の命令追従データセットである Slidestruct を作成しました。
さらに、顕微鏡検査や診断などのさまざまな臨床設定で SlideChat の機能を評価するために、キャプションと VQA タスクを組み込んだマルチモーダル ベンチマークである SlideBench を提案します。
一般的な MLLM と特殊な MLLM の両方と比較して、SlideChat は 22 タスク中 18 タスクで最先端のパフォーマンスを達成する優れた機能を示します。
たとえば、SlideBench-VQA (TCGA) では全体の精度 81.17%、SlideBench-VQA (BCNB) では 54.15% を達成しました。
計算病理学の研究開発を促進するために、SlideChat、Slidestruct、SlideBench をオープンソース リソースとして完全にリリースします。

要約(オリジナル)

Despite the progress made by multimodal large language models (MLLMs) in computational pathology, they remain limited by a predominant focus on patch-level analysis, missing essential contextual information at the whole-slide level. The lack of large-scale instruction datasets and the gigapixel scale of whole slide images (WSIs) pose significant developmental challenges. In this paper, we present SlideChat, the first vision-language assistant capable of understanding gigapixel whole-slide images, exhibiting excellent multimodal conversational capability and response complex instruction across diverse pathology scenarios. To support its development, we created SlideInstruction, the largest instruction-following dataset for WSIs consisting of 4.2K WSI captions and 176K VQA pairs with multiple categories. Furthermore, we propose SlideBench, a multimodal benchmark that incorporates captioning and VQA tasks to assess SlideChat’s capabilities in varied clinical settings such as microscopy, diagnosis. Compared to both general and specialized MLLMs, SlideChat exhibits exceptional capabilities achieving state-of-the-art performance on 18 of 22 tasks. For example, it achieved an overall accuracy of 81.17% on SlideBench-VQA (TCGA), and 54.15% on SlideBench-VQA (BCNB). We will fully release SlideChat, SlideInstruction and SlideBench as open-source resources to facilitate research and development in computational pathology.

arxiv情報

著者 Ying Chen,Guoan Wang,Yuanfeng Ji,Yanjun Li,Jin Ye,Tianbin Li,Bin Zhang,Nana Pei,Rongshan Yu,Yu Qiao,Junjun He
発行日 2024-10-15 16:33:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク