要約
SAM(Segment Anything Model:セグメント何でもモデル)は、プロンプトが与えられた画像内の様々なオブジェクトをセグメント化する能力により、大きな注目を集めている。最近開発されたSAM 2は、この能力をビデオ入力に拡張した。これにより、SAMを医療画像分野における基本的なタスクの1つである3D画像に適用する機会が開かれた。本論文では、SAM 2の2Dおよび3D医用画像のセグメンテーション能力を評価する。CT(コンピュータ断層撮影)、MRI(磁気共鳴画像)、PET(陽電子放射断層撮影)などの一般的な3Dモダリティと、X線や超音波などの2Dモダリティを含む、18の医療画像データセットを収集する。(1)ボリュームから選択された1つまたは複数のスライスにプロンプトが提供されるマルチフレーム3Dセグメンテーションと、(2)各スライスにプロンプトが提供されるシングルフレーム2Dセグメンテーションである。前者は3Dモダリティにのみ適用され、後者は2Dと3Dの両方に適用される。SAM 2は、シングルフレーム2DセグメンテーションではSAMと同様の性能を示し、マルチフレーム3Dセグメンテーションでは、アノテーションするスライスの選択、伝播の方向、伝播中に利用される予測などによって性能が変化することがわかる。
要約(オリジナル)
Segment Anything Model (SAM) has gained significant attention because of its ability to segment a variety of objects in images given a prompt. The recently developed SAM 2 has extended this ability to video inputs. This opens an opportunity to apply SAM to 3D images, one of the fundamental tasks in the medical imaging field. In this paper, we provide an extensive evaluation of SAM 2’s ability to segment both 2D and 3D medical images. We collect 18 medical imaging datasets, including common 3D modalities such as computed tomography (CT), magnetic resonance imaging (MRI), and positron emission tomography (PET) as well as 2D modalities such as X-ray and ultrasound. We consider two evaluation pipelines of SAM 2: (1) multi-frame 3D segmentation, where prompts are provided to one or multiple slice(s) selected from the volume, and (2) single-frame 2D segmentation, where prompts are provided to each slice. The former is only applicable to 3D modalities, while the latter applies to both 2D and 3D modalities. We learn that SAM 2 exhibits similar performance as SAM under single-frame 2D segmentation, and has variable performance under multi-frame 3D segmentation depending on the choices of slices to annotate, the direction of the propagation, the predictions utilized during the propagation, etc.
arxiv情報
著者 | Haoyu Dong,Hanxue Gu,Yaqian Chen,Jichen Yang,Maciej A. Mazurowski |
発行日 | 2024-08-01 17:57:25+00:00 |
arxivサイト | arxiv_id(pdf) |