SAMIC: Segment Anything with In-Context Spatial Prompt Engineering

要約

フューショット セグメンテーションは、ラベル付けされた参照画像の小さなセットから画像内の特定の種類のオブジェクト (飛行機など) を識別する方法を学習する問題です。
現在の最先端技術は、新しいドメイン固有のアプリケーションごとにリソースを大量に消費するモデルの構築によって推進されています。
このようなモデルは、その「知識」を新しいタイプのオブジェクトに転送できるように、無関係なオブジェクト (車、電車、動物など) のラベル付きの膨大なデータセットでトレーニングする必要があります。
このペーパーでは、既存のビジョン基盤モデル (VFM) を活用して、新しいドメインの少数ショット セグメンテーション モデルを作成する追加コストを削減する方法を示します。
具体的には、ドメイン固有のアプリケーションで新しいタイプのオブジェクトをセグメント化するために VFM にプロンプ​​トを表示する方法を学習する小規模ネットワークである SAMIC を紹介します。
SAMIC を使用すると、あらゆるタスクを数回の学習問題として取り組むことができます。
パラメータ数は 260 万で、主要なモデル (例: 4,500 万以上のパラメータを持つ ResNet 101 バックボーンを持つ) よりも 94% 小さいです。
ワンショット ベンチマークによって提供されるトレーニング データの 5 分の 1 を使用しても、SAMIC は、COCO-$20^i$、Pascal-
$5^i$、パーセグ、FSS-1000、および NWPU VHR-10。

要約(オリジナル)

Few-shot segmentation is the problem of learning to identify specific types of objects (e.g., airplanes) in images from a small set of labeled reference images. The current state of the art is driven by resource-intensive construction of models for every new domain-specific application. Such models must be trained on enormous labeled datasets of unrelated objects (e.g., cars, trains, animals) so that their “knowledge” can be transferred to new types of objects. In this paper, we show how to leverage existing vision foundation models (VFMs) to reduce the incremental cost of creating few-shot segmentation models for new domains. Specifically, we introduce SAMIC, a small network that learns how to prompt VFMs in order to segment new types of objects in domain-specific applications. SAMIC enables any task to be approached as a few-shot learning problem. At 2.6 million parameters, it is 94% smaller than the leading models (e.g., having ResNet 101 backbone with 45+ million parameters). Even using 1/5th of the training data provided by one-shot benchmarks, SAMIC is competitive with, or sets the state of the art, on a variety of few-shot and semantic segmentation datasets including COCO-$20^i$, Pascal-$5^i$, PerSeg, FSS-1000, and NWPU VHR-10.

arxiv情報

著者 Savinay Nagendra,Kashif Rashid,Chaopeng Shen,Daniel Kifer
発行日 2024-12-16 17:26:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク