kNN-CLIP: Retrieval Enables Training-Free Segmentation on Continually Expanding Large Vocabularies

要約

継続的セグメンテーションでは、大規模で継続的に拡大する語彙全体​​を正確にセグメンテーションするためのトレーニング データを使用して、オープンな語彙セグメンテーション モデルを改善するという課題にまだ取り組んでいません。
従来の継続的なトレーニングでは深刻な壊滅的な忘却が発生し、ゼロショット セグメンテーションのベースラインを上回るパフォーマンスが得られないことがわかりました。
トレーニング不要の新しい戦略である kNN-CLIP を導入します。これは、忘却ゼロを達成するセマンティックおよびパノプティック セグメンテーション用のインスタンス埋め込みのデータベースでモデルを強化します。
kNN-CLIP が、再トレーニングや大量のメモリコストを必要とせずに、増え続ける語彙に適応できることを実証します。
kNN-CLIP を使用すると、コンパクトな埋め込みのみを保存しながら、データを 1 回通過するだけで任意のドメインで語彙を拡張できるオープン語彙セグメンテーション手法が可能になります。
このアプローチにより、コンピューティング コストとメモリ コストの両方が最小限に抑えられます。
kNN-CLIP は、大規模な語彙のセマンティックおよびパノプティック セグメンテーション データセット全体で最先端のパフォーマンスを実現します。
私たちは、kNN-CLIP がより効率的で適応性のある連続セグメンテーションを可能にする重要な前進となり、現実世界の大語彙連続セグメンテーション手法の進歩への道を開くことを願っています。

要約(オリジナル)

Continual segmentation has not yet tackled the challenge of improving open-vocabulary segmentation models with training data for accurate segmentation across large, continually expanding vocabularies. We discover that traditional continual training results in severe catastrophic forgetting, failing to outperform a zero-shot segmentation baseline. We introduce a novel training-free strategy, kNN-CLIP, which augments the model with a database of instance embeddings for semantic and panoptic segmentation that achieves zero forgetting. We demonstrate that kNN-CLIP can adapt to continually growing vocabularies without the need for retraining or large memory costs. kNN-CLIP enables open-vocabulary segmentation methods to expand their vocabularies on any domain with a single pass through the data, while only storing compact embeddings. This approach minimizes both compute and memory costs. kNN-CLIP achieves state-of-the-art performance across large-vocabulary semantic and panoptic segmentation datasets. We hope kNN-CLIP represents a significant step forward in enabling more efficient and adaptable continual segmentation, paving the way for advances in real-world large-vocabulary continual segmentation methods.

arxiv情報

著者 Zhongrui Gui,Shuyang Sun,Runjia Li,Jianhao Yuan,Zhaochong An,Karsten Roth,Ameya Prabhu,Philip Torr
発行日 2024-08-13 13:24:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク