要約
大規模な言語モデルのパラダイムシフトが成功し、データの大規模なコーパスでの事前トレーニングを活用し、さまざまな下流タスクで微調整することに続いて、ジェネラリストモデルはコンピュータービジョンに進出しました。
セグメントの導入Anything Model(SAM)は、自然画像のセグメンテーションに関するマイルストーンを設定し、医療画像セグメンテーションのための多数のアーキテクチャの設計を刺激します。
この調査では、医療画像セグメンテーションのためのジェネラリストモデルに関する包括的かつ詳細な調査を提供します。
私たちは、それらの開発を支える基礎概念に関する紹介から始めます。
次に、最近のSAM 2で、画像のみで訓練された他の革新的なモデルや、テキストと画像の両方で訓練された他のモデルで、ゼロショット、少数のショット、微調整、アダプター、およびゼロショット、少数のショット、微調整、アダプターの観点から、SAMのさまざまな衰退に関する分類法を提供します。
主要な研究と文学最高の両方のレベルで彼らのパフォーマンスを徹底的に分析し、その後、最先端のタスク固有のモデルと厳密に比較します。
規制の枠組み、プライバシーとセキュリティ法、予算、信頼できる人工知能(AI)の順守という点で課題に対処する必要性を強調しています。
最後に、合成データ、早期融合、自然言語加工の一般主義モデルから学んだ教訓、エージェントAIおよび物理AI、および臨床翻訳に関する将来の方向性に関する視点を共有します。
要約(オリジナル)
Following the successful paradigm shift of large language models, leveraging pre-training on a massive corpus of data and fine-tuning on different downstream tasks, generalist models have made their foray into computer vision. The introduction of Segment Anything Model (SAM) set a milestone on segmentation of natural images, inspiring the design of a multitude of architectures for medical image segmentation. In this survey we offer a comprehensive and in-depth investigation on generalist models for medical image segmentation. We start with an introduction on the fundamentals concepts underpinning their development. Then, we provide a taxonomy on the different declinations of SAM in terms of zero-shot, few-shot, fine-tuning, adapters, on the recent SAM 2, on other innovative models trained on images alone, and others trained on both text and images. We thoroughly analyze their performances at the level of both primary research and best-in-literature, followed by a rigorous comparison with the state-of-the-art task-specific models. We emphasize the need to address challenges in terms of compliance with regulatory frameworks, privacy and security laws, budget, and trustworthy artificial intelligence (AI). Finally, we share our perspective on future directions concerning synthetic data, early fusion, lessons learnt from generalist models in natural language processing, agentic AI and physical AI, and clinical translation.
arxiv情報
著者 | Andrea Moglia,Matteo Leccardi,Matteo Cavicchioli,Alice Maccarini,Marco Marcon,Luca Mainardi,Pietro Cerveri |
発行日 | 2025-06-12 15:44:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google