要約
ビジョンと言語モデル(VLM)を使用して、オープンボキャブラリーセマンティックセグメンテーションのためのトレーニングなしの方法を提案します。
私たちのアプローチは、パッチとパッチとパッチの関係を組み込むことで予測を共同で最適化するラベル伝播を通じて、VLMの初期ごとの予測を強化します。
VLMは主にモーダル内の類似性ではなく、クロスモーダルアラインメントのために最適化されているため、これらの関係をよりよくキャプチャするように観察されるビジョンモデル(VM)を使用します。
パッチベースのエンコーダーに固有の解像度の制限に対処し、ピクセルレベルでラベル伝播を改良ステップとして適用し、クラスの境界近くのセグメンテーションの精度を大幅に改善します。
LPOSS+と呼ばれる私たちの方法は、画像全体に推論を実行し、ウィンドウベースの処理を回避し、それによって画像全体にわたってコンテキスト相互作用をキャプチャします。
LPOSS+は、多様なデータセットのセットで、トレーニングなしの方法で最先端のパフォーマンスを実現します。
コード:https://github.com/vladan-stojnic/lposs
要約(オリジナル)
We propose a training-free method for open-vocabulary semantic segmentation using Vision-and-Language Models (VLMs). Our approach enhances the initial per-patch predictions of VLMs through label propagation, which jointly optimizes predictions by incorporating patch-to-patch relationships. Since VLMs are primarily optimized for cross-modal alignment and not for intra-modal similarity, we use a Vision Model (VM) that is observed to better capture these relationships. We address resolution limitations inherent to patch-based encoders by applying label propagation at the pixel level as a refinement step, significantly improving segmentation accuracy near class boundaries. Our method, called LPOSS+, performs inference over the entire image, avoiding window-based processing and thereby capturing contextual interactions across the full image. LPOSS+ achieves state-of-the-art performance among training-free methods, across a diverse set of datasets. Code: https://github.com/vladan-stojnic/LPOSS
arxiv情報
著者 | Vladan Stojnić,Yannis Kalantidis,Jiří Matas,Giorgos Tolias |
発行日 | 2025-03-25 15:47:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google