Segment Anything in High Quality

要約

最近のSAM(Segment Anything Model)は、セグメンテーションモデルのスケールアップに大きな飛躍をもたらし、強力なゼロショット機能と柔軟なプロンプトを可能にしました。しかし、11億枚のマスクで学習させたにもかかわらず、SAMのマスク予測品質は、特に複雑な構造を持つオブジェクトを扱う場合、多くの場合、不十分である。我々はHQ-SAMを提案し、SAMのプロンプト可能な設計、効率、ゼロショット汎化性を維持しつつ、あらゆる物体を正確に分割する能力をSAMに装備させる。HQ-SAMは、SAMの学習済みモデルの重みを再利用し、維持しながら、最小限の追加パラメータと計算を導入する。学習可能な高品質出力トークンを設計し、SAMのマスクデコーダーに注入することで、高品質マスクを予測する役割を担う。マスクデコーダの特徴量にのみ適用するのではなく、マスクの詳細を改善するために、初期および最終ViTの特徴量と融合させる。導入した学習可能なパラメータを訓練するために、複数のソースから44Kの細かいマスクのデータセットを構成する。HQ-SAMの学習は、導入した44Kマスクのデータセットに対してのみ行われ、8GPUで4時間しかかからない。HQ-SAMの有効性は、異なる下流タスクにまたがる9つの多様なセグメンテーションデータセットで示され、そのうち7つはゼロショット転送プロトコルで評価されています。我々のコードとモデルは、https://github.com/SysCV/SAM-HQ で公開される予定です。

要約(オリジナル)

The recent Segment Anything Model (SAM) represents a big leap in scaling up segmentation models, allowing for powerful zero-shot capabilities and flexible prompting. Despite being trained with 1.1 billion masks, SAM’s mask prediction quality falls short in many cases, particularly when dealing with objects that have intricate structures. We propose HQ-SAM, equipping SAM with the ability to accurately segment any object, while maintaining SAM’s original promptable design, efficiency, and zero-shot generalizability. Our careful design reuses and preserves the pre-trained model weights of SAM, while only introducing minimal additional parameters and computation. We design a learnable High-Quality Output Token, which is injected into SAM’s mask decoder and is responsible for predicting the high-quality mask. Instead of only applying it on mask-decoder features, we first fuse them with early and final ViT features for improved mask details. To train our introduced learnable parameters, we compose a dataset of 44K fine-grained masks from several sources. HQ-SAM is only trained on the introduced detaset of 44k masks, which takes only 4 hours on 8 GPUs. We show the efficacy of HQ-SAM in a suite of 9 diverse segmentation datasets across different downstream tasks, where 7 out of them are evaluated in a zero-shot transfer protocol. Our code and models will be released at https://github.com/SysCV/SAM-HQ.

arxiv情報

著者 Lei Ke,Mingqiao Ye,Martin Danelljan,Yifan Liu,Yu-Wing Tai,Chi-Keung Tang,Fisher Yu
発行日 2023-06-02 14:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク