MedSAM2: Segment Anything in 3D Medical Images and Videos

要約

医療画像や映像のセグメンテーションは、精密医療にとって重要なタスクであり、2D画像については、タスクやモダリティに特化したモデルや汎用モデルの開発がかなり進んでいる。しかし、3次元画像や動画に対する汎用モデルの構築や、包括的なユーザースタディに関する研究は限られている。本論文では、3D画像や動画像のセグメンテーションのための、迅速なセグメンテーション基盤モデルであるMedSAM2を紹介する。このモデルは、455,000以上の3D画像とマスクのペア、76,000以上のフレームからなる大規模な医療データセット上で、セグメント何でもモデル2を微調整することにより開発され、幅広い臓器、病変、画像モダリティにおいて、従来のモデルを凌駕している。さらに、大規模データセットの作成を容易にするヒューマンインザループパイプラインを実装し、CT病変5,000個、肝臓MRI病変3,984個、心エコー図ビデオフレーム251,550個のアノテーションを含む、我々の知る限りこれまでで最も大規模なユーザースタディを実施し、MedSAM2が手作業によるコストを85%以上削減できることを実証した。また、MedSAM2は、ローカルおよびクラウド展開用のユーザーフレンドリーなインターフェースにより、広く使用されているプラットフォームに統合されており、研究および医療環境の両方において、効率的でスケーラブルかつ高品質なセグメンテーションをサポートする実用的なツールとなっている。

要約(オリジナル)

Medical image and video segmentation is a critical task for precision medicine, which has witnessed considerable progress in developing task or modality-specific and generalist models for 2D images. However, there have been limited studies on building general-purpose models for 3D images and videos with comprehensive user studies. Here, we present MedSAM2, a promptable segmentation foundation model for 3D image and video segmentation. The model is developed by fine-tuning the Segment Anything Model 2 on a large medical dataset with over 455,000 3D image-mask pairs and 76,000 frames, outperforming previous models across a wide range of organs, lesions, and imaging modalities. Furthermore, we implement a human-in-the-loop pipeline to facilitate the creation of large-scale datasets resulting in, to the best of our knowledge, the most extensive user study to date, involving the annotation of 5,000 CT lesions, 3,984 liver MRI lesions, and 251,550 echocardiogram video frames, demonstrating that MedSAM2 can reduce manual costs by more than 85%. MedSAM2 is also integrated into widely used platforms with user-friendly interfaces for local and cloud deployment, making it a practical tool for supporting efficient, scalable, and high-quality segmentation in both research and healthcare environments.

arxiv情報

著者 Jun Ma,Zongxin Yang,Sumin Kim,Bihui Chen,Mohammed Baharoon,Adibvafa Fallahpour,Reza Asakereh,Hongwei Lyu,Bo Wang
発行日 2025-04-04 17:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, eess.IV パーマリンク