要約
腫瘍のセグメント化は、がん診断において極めて重要なタスクです。
組織学における全スライド画像 (WSI) のサイズが膨大であることを考慮すると、WSI 分類のための深層学習アプローチは主にパッチ単位またはスーパーピクセル単位で動作します。
ただし、これらのソリューションは、グローバル WSI 情報を取得するのに苦労することが多く、バイナリ マスクを直接生成できません。
WSI をダウンサンプリングしてセマンティック セグメンテーションを実行することも考えられるアプローチです。
この方法は計算効率を提供しますが、解像度の低下により情報の損失が発生する可能性があるため、大量の注釈付きデータが必要になります。
視覚的なプロンプトは、モデル自体を適応させるのではなく、入力空間に微妙な変更を加えることでモデルが新しいタスクを実行できるようにする新しいパラダイムです。
このようなアプローチは、多くのコンピューター ビジョン タスクで有望な結果を実証しています。
この論文では、3 つの異なる臓器の腫瘍セグメンテーションに関連した視覚的プロンプトの有効性を示します。
この特定のタスク用に訓練された従来の手法と比較して、適切なプロンプトの例を使用すると、視覚的なプロンプトが広範な微調整なしで同等またはそれ以上のパフォーマンスを達成できることが今回の調査結果で明らかになりました。
要約(オリジナル)
Tumor segmentation stands as a pivotal task in cancer diagnosis. Given the immense dimensions of whole slide images (WSI) in histology, deep learning approaches for WSI classification mainly operate at patch-wise or superpixel-wise level. However, these solutions often struggle to capture global WSI information and cannot directly generate the binary mask. Downsampling the WSI and performing semantic segmentation is another possible approach. While this method offers computational efficiency, it necessitates a large amount of annotated data since resolution reduction may lead to information loss. Visual prompting is a novel paradigm that allows the model to perform new tasks by making subtle modifications to the input space, rather than adapting the model itself. Such approach has demonstrated promising results on many computer vision tasks. In this paper, we show the efficacy of visual prompting in the context of tumor segmentation for three distinct organs. In comparison to classical methods trained for this specific task, our findings reveal that, with appropriate prompt examples, visual prompting can achieve comparable or better performance without extensive fine-tuning.
arxiv情報
著者 | Huaqian Wu,Clara Brémond-Martin,Kévin Bouaou,Cédric Clouchoux |
発行日 | 2024-02-21 16:59:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google