Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos

要約

組織病理学における診断には、グローバルな全スライド画像 (WSI) 解析が必要であり、病理学者はさまざまな WSI パッチからの証拠を複合化する必要があります。
WSI のギガピクセル スケールは、病理組織学のマルチモーダル モデルに課題をもたらします。
組織病理学用のマルチモデル モデルをトレーニングするには、データセットを調整するための指示が必要です。データセットには現在、個々の画像パッチの情報が含まれており、各パッチ内の概念の空間的根拠や WSI のより広い視野が必要ありません。
したがって、それらは組織病理学のための十分な診断能力に欠けています。
このギャップを埋めるために、WSI を構成する診断に関連した画像パッチ内に基づいた、107,131 の組織病理学固有の指示の質問と回答のペアからなる大規模なデータセットである Quilt-Instruct を導入します。
私たちのデータセットは、YouTube の教育用組織病理学ビデオを活用して収集されており、ナレーターのカーソル位置を自動的に抽出することでナレーションの空間的位置特定を提供します。
Quilt-Instruct は、WSI 全体から診断と裏付けとなる事実を抽出することで、状況に応じた推論をサポートします。
Quilt-Instruct を使用して Quilt-LLaVA をトレーニングします。Quilt-LLaVA は、特定の単一イメージ パッチを超えて推論できるため、パッチ全体にわたる診断推論が可能になります。
Quilt-LLaVA を評価するために、985 枚の画像と人間が生成した 1,283 個の質問回答から作成された包括的な評価データセットを提案します。
また、公開されている組織病理学データセットを使用して Quilt-LLaVA を徹底的に評価します。Quilt-LLaVA は、相対 GPT-4 スコアで 10% 以上、オープン セットおよびクローズド セット VQA で 4% および 9% 以上、SOTA を大幅に上回っています。
私たちのコード、データ、モデルは、quilt-llava.github.io で公開されています。

要約(オリジナル)

Diagnosis in histopathology requires a global whole slide images (WSIs) analysis, requiring pathologists to compound evidence from different WSI patches. The gigapixel scale of WSIs poses a challenge for histopathology multi-modal models. Training multi-model models for histopathology requires instruction tuning datasets, which currently contain information for individual image patches, without a spatial grounding of the concepts within each patch and without a wider view of the WSI. Therefore, they lack sufficient diagnostic capacity for histopathology. To bridge this gap, we introduce Quilt-Instruct, a large-scale dataset of 107,131 histopathology-specific instruction question/answer pairs, grounded within diagnostically relevant image patches that make up the WSI. Our dataset is collected by leveraging educational histopathology videos from YouTube, which provides spatial localization of narrations by automatically extracting the narrators’ cursor positions. Quilt-Instruct supports contextual reasoning by extracting diagnosis and supporting facts from the entire WSI. Using Quilt-Instruct, we train Quilt-LLaVA, which can reason beyond the given single image patch, enabling diagnostic reasoning across patches. To evaluate Quilt-LLaVA, we propose a comprehensive evaluation dataset created from 985 images and 1283 human-generated question-answers. We also thoroughly evaluate Quilt-LLaVA using public histopathology datasets, where Quilt-LLaVA significantly outperforms SOTA by over 10% on relative GPT-4 score and 4% and 9% on open and closed set VQA. Our code, data, and model are publicly accessible at quilt-llava.github.io.

arxiv情報

著者 Mehmet Saygin Seyfioglu,Wisdom O. Ikezogwo,Fatemeh Ghezloo,Ranjay Krishna,Linda Shapiro
発行日 2025-01-13 08:08:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク