Fast Segment Anything

要約

最近提案されたセグメント何でもモデル (SAM) は、多くのコンピューター ビジョン タスクに大きな影響を与えています。
これは、画像のセグメンテーション、画像のキャプション、画像編集などの多くの高レベルのタスクの基礎ステップとなりつつあります。
ただし、その膨大な計算コストにより、業界シナリオでの幅広い用途が妨げられます。
計算は主に、高解像度入力の Transformer アーキテクチャから行われます。
この論文では、この基本的なタスクを同等のパフォーマンスで高速化する代替方法を提案します。
タスクをセグメントの生成とプロンプトとして再定式化することにより、インスタンス セグメンテーション ブランチを備えた通常の CNN 検出器でもこのタスクを適切に実行できることがわかります。
具体的には、このタスクをよく研究されたインスタンス セグメンテーション タスクに変換し、SAM 作成者によって公開された SA-1B データセットの 1/50 のみを使用して既存のインスタンス セグメンテーション メソッドを直接トレーニングします。
私たちの方法では、50 倍高い実行速度で SAM 方法と同等のパフォーマンスを達成します。
その有効性を実証するために十分な実験結果を提供します。
コードとデモは https://github.com/CASIA-IVA-Lab/FastSAM でリリースされます。

要約(オリジナル)

The recently proposed segment anything model (SAM) has made a significant influence in many computer vision tasks. It is becoming a foundation step for many high-level tasks, like image segmentation, image caption, and image editing. However, its huge computation costs prevent it from wider applications in industry scenarios. The computation mainly comes from the Transformer architecture at high-resolution inputs. In this paper, we propose a speed-up alternative method for this fundamental task with comparable performance. By reformulating the task as segments-generation and prompting, we find that a regular CNN detector with an instance segmentation branch can also accomplish this task well. Specifically, we convert this task to the well-studied instance segmentation task and directly train the existing instance segmentation method using only 1/50 of the SA-1B dataset published by SAM authors. With our method, we achieve a comparable performance with the SAM method at 50 times higher run-time speed. We give sufficient experimental results to demonstrate its effectiveness. The codes and demos will be released at https://github.com/CASIA-IVA-Lab/FastSAM.

arxiv情報

著者 Xu Zhao,Wenchao Ding,Yongqi An,Yinglong Du,Tao Yu,Min Li,Ming Tang,Jinqiao Wang
発行日 2023-06-21 10:08:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク