PRISM: A Promptable and Robust Interactive Segmentation Model with Visual Prompts

要約

本稿では、3D 医療画像の正確なセグメンテーションを目的とした、迅速かつ堅牢なインタラクティブ セグメンテーション モデルである PRISM を紹介します。
PRISM は、点、ボックス、落書きを疎なプロンプトとして、またマスクを密なプロンプトとして含む、さまざまな視覚入力を受け入れます。
具体的には、PRISM は堅牢性を実現するための 4 つの原則に基づいて設計されています。 (1) 反復学習。
このモデルは、以前の反復からの視覚的なプロンプトを使用してセグメンテーションを生成し、段階的な改善を実現します。
(2) 自信を持って学習する。
PRISM は入力画像ごとに複数のセグメンテーション ヘッドを採用し、それぞれが連続マップと信頼スコアを生成して予測を最適化します。
(3) 矯正学習。
各セグメンテーションの反復後、PRISM は浅い修正リファインメント ネットワークを使用して、誤ってラベル付けされたボクセルを再割り当てします。
(4) ハイブリッド設計。
PRISM はハイブリッド エンコーダを統合して、ローカル情報とグローバル情報の両方をより適切にキャプチャします。
PRISM の包括的な検証は、結腸、膵臓、肝臓、腎臓の腫瘍セグメント化のための 4 つの公開データセットを使用して実施され、正確な腫瘍の特定における解剖学的差異と曖昧な境界によって引き起こされる課題を浮き彫りにしています。
最先端の手法と比較して、即時エンジニアリングの有無にかかわらず、PRISM はパフォーマンスを大幅に向上させ、人間のレベルに近い結果を達成します。
コードは https://github.com/MedICL-VU/PRISM で公開されています。

要約(オリジナル)

In this paper, we present PRISM, a Promptable and Robust Interactive Segmentation Model, aiming for precise segmentation of 3D medical images. PRISM accepts various visual inputs, including points, boxes, and scribbles as sparse prompts, as well as masks as dense prompts. Specifically, PRISM is designed with four principles to achieve robustness: (1) Iterative learning. The model produces segmentations by using visual prompts from previous iterations to achieve progressive improvement. (2) Confidence learning. PRISM employs multiple segmentation heads per input image, each generating a continuous map and a confidence score to optimize predictions. (3) Corrective learning. Following each segmentation iteration, PRISM employs a shallow corrective refinement network to reassign mislabeled voxels. (4) Hybrid design. PRISM integrates hybrid encoders to better capture both the local and global information. Comprehensive validation of PRISM is conducted using four public datasets for tumor segmentation in the colon, pancreas, liver, and kidney, highlighting challenges caused by anatomical variations and ambiguous boundaries in accurate tumor identification. Compared to state-of-the-art methods, both with and without prompt engineering, PRISM significantly improves performance, achieving results that are close to human levels. The code is publicly available at https://github.com/MedICL-VU/PRISM.

arxiv情報

著者 Hao Li,Han Liu,Dewei Hu,Jiacheng Wang,Ipek Oguz
発行日 2024-04-23 13:34:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク