要約
最近の Segment Anything Model (SAM) は、セグメンテーション モデルのスケールアップにおける大きな進歩を表し、強力なゼロショット機能と柔軟なプロンプトを可能にします。
11 億のマスクを使用してトレーニングされているにもかかわらず、SAM のマスク予測品質は多くの場合、特に複雑な構造を持つオブジェクトを扱う場合には不十分です。
私たちは、SAM 本来のプロンプト設計、効率性、ゼロショット汎用性を維持しながら、あらゆるオブジェクトを正確にセグメント化する機能を SAM に装備する HQ-SAM を提案します。
当社の慎重な設計では、SAM の事前トレーニング済みモデルの重みを再利用および保存しながら、最小限の追加パラメータと計算のみを導入しています。
私たちは学習可能な高品質出力トークンを設計します。これは SAM のマスク デコーダーに挿入され、高品質マスクの予測を担当します。
マスク デコーダ機能にのみ適用するのではなく、まずマスク デコーダ機能を初期および最終の ViT 機能と融合して、マスクの詳細を改善します。
導入した学習可能なパラメータをトレーニングするために、いくつかのソースから 44K のきめの細かいマスクのデータセットを構成します。
HQ-SAM は、導入された 44k マスクのデターセットでのみトレーニングされ、8 つの GPU でわずか 4 時間かかります。
さまざまな下流タスクにわたる 10 個の多様なセグメンテーション データセットのスイートにおける HQ-SAM の有効性を示します。そのうちの 8 個はゼロショット転送プロトコルで評価されます。
私たちのコードと事前トレーニングされたモデルは https://github.com/SysCV/SAM-HQ にあります。
要約(オリジナル)
The recent Segment Anything Model (SAM) represents a big leap in scaling up segmentation models, allowing for powerful zero-shot capabilities and flexible prompting. Despite being trained with 1.1 billion masks, SAM’s mask prediction quality falls short in many cases, particularly when dealing with objects that have intricate structures. We propose HQ-SAM, equipping SAM with the ability to accurately segment any object, while maintaining SAM’s original promptable design, efficiency, and zero-shot generalizability. Our careful design reuses and preserves the pre-trained model weights of SAM, while only introducing minimal additional parameters and computation. We design a learnable High-Quality Output Token, which is injected into SAM’s mask decoder and is responsible for predicting the high-quality mask. Instead of only applying it on mask-decoder features, we first fuse them with early and final ViT features for improved mask details. To train our introduced learnable parameters, we compose a dataset of 44K fine-grained masks from several sources. HQ-SAM is only trained on the introduced detaset of 44k masks, which takes only 4 hours on 8 GPUs. We show the efficacy of HQ-SAM in a suite of 10 diverse segmentation datasets across different downstream tasks, where 8 out of them are evaluated in a zero-shot transfer protocol. Our code and pretrained models are at https://github.com/SysCV/SAM-HQ.
arxiv情報
著者 | Lei Ke,Mingqiao Ye,Martin Danelljan,Yifan Liu,Yu-Wing Tai,Chi-Keung Tang,Fisher Yu |
発行日 | 2023-10-23 12:40:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google