A Comprehensive Survey on Segment Anything Model for Vision and Beyond


人工知能 (AI) は、汎用人工知能に向けて進化しています。これは、幅広いタスクを実行し、人間と同様のレベルの知能を示す AI システムの能力を指します。
これは、特定のタスクを高い効率で実行するように設計された、限定的または特化された AI とは対照的です。
最近提案されたセグメント エニシング モデル (SAM) は、セグメンテーションの境界を打ち破る点で大きな進歩を遂げ、コンピューター ビジョンの基礎モデルの開発を大幅に促進しました。
SAM を完全に理解するために、私たちはアンケート調査を実施します。
SAM の基礎モデルに基づいて、ビジョンやそれを超えたあらゆるタスクのセグメント化の進捗状況を包括的にレビューした最初の研究者として、この研究は、SAM の歴史的発展、最近の進歩、および広範な分野への重大な影響を議論することにより、さまざまなタスクとデータ タイプへの SAM の適用に焦点を当てています。
まず、SAM を含む基礎モデルの背景と用語、およびあらゆるタスクのセグメント化に重要な SAM と同時代の最先端の手法を紹介します。
次に、ソフトウェア シーン、現実世界のシーン、複雑なシーンを含むさまざまな画像処理アプリケーションにわたる SAM の利点と制限を分析し、要約します。
重要なのは、より汎用性の高い基礎モデルを開発し、SAM のアーキテクチャを改善するための将来の研究を導くために、多くの洞察が得られることです。
また、ビジョンやその他の分野における SAM の他の驚くべきアプリケーションについてもまとめます。
最後に、基礎モデル SAM の論文リストとオープンソース プロジェクトの概要を継続的に更新し、\href{https://github.com/liliu-avril/Awesome-Segment-Anything}{\color{magenta}{こちら) で管理しています。


Artificial intelligence (AI) is evolving towards artificial general intelligence, which refers to the ability of an AI system to perform a wide range of tasks and exhibit a level of intelligence similar to that of a human being. This is in contrast to narrow or specialized AI, which is designed to perform specific tasks with a high degree of efficiency. Therefore, it is urgent to design a general class of models, which we term foundation models, trained on broad data that can be adapted to various downstream tasks. The recently proposed segment anything model (SAM) has made significant progress in breaking the boundaries of segmentation, greatly promoting the development of foundation models for computer vision. To fully comprehend SAM, we conduct a survey study. As the first to comprehensively review the progress of segmenting anything task for vision and beyond based on the foundation model of SAM, this work focuses on its applications to various tasks and data types by discussing its historical development, recent progress, and profound impact on broad applications. We first introduce the background and terminology for foundation models including SAM, as well as state-of-the-art methods contemporaneous with SAM that are significant for segmenting anything task. Then, we analyze and summarize the advantages and limitations of SAM across various image processing applications, including software scenes, real-world scenes, and complex scenes. Importantly, many insights are drawn to guide future research to develop more versatile foundation models and improve the architecture of SAM. We also summarize massive other amazing applications of SAM in vision and beyond. Finally, we maintain a continuously updated paper list and an open-source project summary for foundation model SAM at \href{https://github.com/liliu-avril/Awesome-Segment-Anything}{\color{magenta}{here}}.


著者 Chunhui Zhang,Li Liu,Yawen Cui,Guanjie Huang,Weilin Lin,Yiqian Yang,Yuehong Hu
発行日 2023-05-19 16:33:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク