BYOCL: Build Your Own Consistent Latent with Hierarchical Representative Latent Clustering

要約

SAMまたはその他の単一イメージセグメンテーションモデルの画像シーケンスを処理するセマンティックな矛盾の問題に対処するために、BYOCLを紹介します。
この新しいモデルは、広範な実験でSAMを上回り、クリップやその他の表現全体に階層的なプロトタイプ機能を紹介します。
BYOCLは、入力をより小さなバッチに分割することにより、時間と空間の消費を大幅に削減し、以前の方法と比較して指数関数的な時間削減を達成します。
私たちのアプローチは、機能抽出のためにSAMイメージエンコーダーを活用し、その後、バッチ内およびバッチ間クラスタリングアルゴリズムが続きます。
広範な実験は、BYOCLが以前の最先端の単一画像セグメンテーションモデルをはるかに超えることを示しています。
私たちの作業は、潜在スペースにプラグアンドプレイモジュールを利用して、トレーニングを必要とせずに基礎モデルを使用して一貫したセグメンテーションを適用した最初のものです。

要約(オリジナル)

To address the semantic inconsistency issue with SAM or other single-image segmentation models handling image sequences, we introduce BYOCL. This novel model outperforms SAM in extensive experiments, showcasing its Hierarchical prototype capabilities across CLIP and other representations. BYOCL significantly reduces time and space consumption by dividing inputs into smaller batches, achieving exponential time reduction compared to previous methods. Our approach leverages the SAM image encoder for feature extraction, followed by Intra-Batch and Inter-Batch clustering algorithms. Extensive experiments demonstrate that BYOCL far exceeds the previous state-of-the-art single image segmentation model. Our work is the first to apply consistent segmentation using foundation models without requiring training, utilizing plug-and-play modules for any latent space, making our method highly efficientModels are available at \href{https://github.com/cyt1202/BYOCL.git

arxiv情報

著者 Jiayue Dai,Yunya Wang,Yihan Fang,Yuetong Chen,Butian Xiong
発行日 2025-04-10 14:52:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク