要約
インコンテキストセグメンテーションは、「インコンテキストサンプル」と呼ばれるいくつかのラベル付きサンプル画像を使用して新しい画像をセグメント化し、サンプルとターゲットの間のコンテンツの類似性を調査することを目的としています。
結果として得られるモデルは、新しいセグメンテーション タスクにシームレスに一般化でき、従来のパイプラインと比較してラベル付けとトレーニングのコストを大幅に削減できます。
ただし、インコンテキスト セグメンテーションはメタ学習の性質により、従来のセグメンテーションよりも難しく、モデルはセグメンテーションだけでなく、少数のサンプルを条件としたセグメンテーション ルールを学習する必要があります。
アドホックまたは非エンドツーエンド設計を使用した以前の研究とは異なり、シングル ビジョン基盤モデル (VFM) に基づいて構築されたエンドツーエンドのセグメント イン コンテキスト フレームワークである SEGIC を提案します。
特に、SEGIC は VFM 内の緊急対応を活用して、ターゲット画像とコンテキスト内のサンプル間の密な関係をキャプチャします。
そのため、コンテキスト内サンプルからの情報は 3 種類の命令 (幾何学的命令、ビジュアル命令、メタ命令) に抽出され、最終的なマスク予測の明示的な条件として機能します。
SEGIC は、ワンショット セグメンテーション ベンチマークで最先端のパフォーマンスをもたらす、単純かつ効果的なアプローチです。
特に、SEGIC は、ビデオ オブジェクトのセグメンテーションやオープンボキャブラリーのセグメンテーションなど、さまざまなタスクに簡単に一般化できます。
コードは \url{https://github.com/MengLcool/SEGIC} で入手できます。
要約(オリジナル)
In-context segmentation aims at segmenting novel images using a few labeled example images, termed as ‘in-context examples’, exploring content similarities between examples and the target. The resulting models can be generalized seamlessly to novel segmentation tasks, significantly reducing the labeling and training costs compared with conventional pipelines. However, in-context segmentation is more challenging than classic ones due to its meta-learning nature, requiring the model to learn segmentation rules conditioned on a few samples, not just the segmentation. Unlike previous work with ad-hoc or non-end-to-end designs, we propose SEGIC, an end-to-end segment-in-context framework built upon a single vision foundation model (VFM). In particular, SEGIC leverages the emergent correspondence within VFM to capture dense relationships between target images and in-context samples. As such, information from in-context samples is then extracted into three types of instructions, i.e. geometric, visual, and meta instructions, serving as explicit conditions for the final mask prediction. SEGIC is a straightforward yet effective approach that yields state-of-the-art performance on one-shot segmentation benchmarks. Notably, SEGIC can be easily generalized to diverse tasks, including video object segmentation and open-vocabulary segmentation. Code will be available at \url{https://github.com/MengLcool/SEGIC}.
arxiv情報
著者 | Lingchen Meng,Shiyi Lan,Hengduo Li,Jose M. Alvarez,Zuxuan Wu,Yu-Gang Jiang |
発行日 | 2023-11-24 18:59:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google