要約
最近のオープンボキャブラリーセマンティックセグメンテーション(OVSS)モデルは、クリップモデルをセグメンテーションに拡張しながら、複数のテンプレート(の写真、<クラス>のスケッチなど)の使用を維持し、クラスの平均テキスト埋め込みを構築し、分類子として作用します。
この論文では、この現状に挑戦し、OVSのテンプレートの影響を調査します。
経験的には、各クラスについて、従来の平均分類器を大幅に上回る単一テンプレート分類器が存在することを観察します。
それらをクラスの専門家と呼びます。
非標識画像へのアクセスが含まれており、トレーニングが関係しないことを考えると、単一テンプレート分類子のクラスワイズ予測エントロピーを活用して、これらの専門家を推定し、クラスワスの専門家として最も低いエントロピーを生成する専門家を選択します。
特定のクラスに特化したすべての専門家は、新たに提案された融合方法で協力して、より正確なOVSS予測を生成します。
私たちのプラグアンドプレイ方法であるコーティングされたフロスは、既存のOVSSメソッドを直交し、補完するものであり、ラベルや追加のトレーニングなしでOVSを体系的に改善する「無料のランチ」を提供します。
広範な実験は、FlossがさまざまなOVSSベンチマークで常に最先端の方法を高めることを示しています。
さらに、選択したエキスパートテンプレートは、あるデータセットから同じセマンティックカテゴリを共有する他のデータセットまでよく一般化できますが、分布シフトを示しています。
さらに、低データレジームの下で満足のいく改善を取得します。ここでは、いくつかのラベルのない画像のみが利用可能です。
私たちのコードは、https://github.com/yasserben/flossで入手できます。
要約(オリジナル)
Recent Open-Vocabulary Semantic Segmentation (OVSS) models extend the CLIP model to segmentation while maintaining the use of multiple templates (e.g., a photo of , a sketch of a , etc.) for constructing class-wise averaged text embeddings, acting as a classifier. In this paper, we challenge this status quo and investigate the impact of templates for OVSS. Empirically, we observe that for each class, there exist single-template classifiers significantly outperforming the conventional averaged classifier. We refer to them as class-experts. Given access to unlabeled images and without any training involved, we estimate these experts by leveraging the class-wise prediction entropy of single-template classifiers, selecting as class-wise experts those which yield the lowest entropy. All experts, each specializing in a specific class, collaborate in a newly proposed fusion method to generate more accurate OVSS predictions. Our plug-and-play method, coined FLOSS, is orthogonal and complementary to existing OVSS methods, offering a ”free lunch” to systematically improve OVSS without labels and additional training. Extensive experiments demonstrate that FLOSS consistently boosts state-of-the-art methods on various OVSS benchmarks. Moreover, the selected expert templates can generalize well from one dataset to others sharing the same semantic categories, yet exhibiting distribution shifts. Additionally, we obtain satisfactory improvements under a low-data regime, where only a few unlabeled images are available. Our code is available at https://github.com/yasserben/FLOSS .
arxiv情報
著者 |
Yasser Benigmim,Mohammad Fahes,Tuan-Hung Vu,Andrei Bursuc,Raoul de Charette |
発行日 |
2025-04-14 17:59:59+00:00 |
arxivサイト |
arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google