要約
オープン語彙セマンティック セグメンテーション モデルは、任意のオープン語彙テキストのセットから画像内の各ピクセルに意味ラベルを正確に割り当てることを目的としています。
このようなピクセルレベルの位置合わせを学習するために、現在のアプローチは通常、(i) 画像レベルの VL モデル (CLIP など)、(ii) グラウンド トゥルース マスク、および (iii) カスタム グループ化エンコーダの組み合わせに依存しています。
本稿では、これらの要素に依存せずに驚くほど強力なパフォーマンスを実現する新しいモデル、S-Seg を紹介します。
S-Seg は、疑似マスクと言語を利用して MaskFormer をトレーニングし、公的に利用可能な画像テキスト データセットから簡単にトレーニングできます。
以前の研究とは対照的に、私たちのモデルはピクセルレベルの機能と言語の調整を直接トレーニングします。
S-Seg は、一度トレーニングされると、微調整を必要とせずに複数のテスト データセットに適切に一般化します。
さらに、S-Seg には、データによる拡張性と、自己トレーニングで強化された場合の一貫した改善という追加の利点があります。
私たちは、シンプルかつ効果的なアプローチが将来の研究の確かなベースラインとして役立つと信じています。
要約(オリジナル)
Open-vocabulary semantic segmentation models aim to accurately assign a semantic label to each pixel in an image from a set of arbitrary open-vocabulary texts. In order to learn such pixel-level alignment, current approaches typically rely on a combination of (i) image-level VL model (e.g. CLIP), (ii) ground truth masks, and (iii) custom grouping encoders. In this paper, we introduce S-Seg, a novel model that can achieve surprisingly strong performance without depending on any of the above elements. S-Seg leverages pseudo-mask and language to train a MaskFormer, and can be easily trained from publicly available image-text datasets. Contrary to prior works, our model directly trains for pixel-level features and language alignment. Once trained, S-Seg generalizes well to multiple testing datasets without requiring fine-tuning. In addition, S-Seg has the extra benefits of scalability with data and consistently improvement when augmented with self-training. We believe that our simple yet effective approach will serve as a solid baseline for future research.
arxiv情報
著者 | Zihang Lai |
発行日 | 2024-01-22 18:59:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google