要約
オープンボキャブラリーセマンティックセグメンテーション(OVSS)は、画像内の各ピクセルを任意のテキストの説明で定義された特定のクラスに割り当てることを目的とするオープンワールドタスクです。
大規模なビジョン言語モデルの最近の進歩により、オープンな表側の理解能力が実証されており、OVSの開発が大幅に促進されています。
ただし、ほとんどの既存の方法は、最適ではないパフォーマンスまたは長い遅延のいずれかに悩まされています。
この研究では、ERR-SEGを紹介します。これは、冗長性を効果的に減らして精度と効率のバランスをとる新しいフレームワークを紹介します。
ERR-SEGには、クリップなどのビジョン言語モデルから事前知識を活用して、他のクラスを破棄しながら最も関連するクラスを識別するトレーニングフリーチャネル削減モジュール(CRM)が組み込まれています。
さらに、空間レベルおよびクラスレベルのシーケンス削減戦略を備えた効率的なセマンティックコンテキスト融合(ESCF)が組み込まれています。
CRMとESCFは、精度を損なうことなく、実質的なメモリと計算の節約をもたらします。
さらに、クローズドセットセマンティックセグメンテーションのために中層機能から抽出された階層セマンティクスの重要性を認識すると、ERR-SEGは階層セマンティックモジュール(HSM)を導入して、OVSSのコンテキストで階層セマンティクスを活用します。
ADE20K-847の設定に基づく以前の最先端の方法と比較して、ERR-SEGは +$ 5.6 \%$ MIOUの改善を達成し、レイテンシを$ 67.3 \%$に削減します。
要約(オリジナル)
Open-vocabulary semantic segmentation (OVSS) is an open-world task that aims to assign each pixel within an image to a specific class defined by arbitrary text descriptions. Recent advancements in large-scale vision-language models have demonstrated their open-vocabulary understanding capabilities, significantly facilitating the development of OVSS. However, most existing methods suffer from either suboptimal performance or long latency. This study introduces ERR-Seg, a novel framework that effectively reduces redundancy to balance accuracy and efficiency. ERR-Seg incorporates a training-free Channel Reduction Module (CRM) that leverages prior knowledge from vision-language models like CLIP to identify the most relevant classes while discarding others. Moreover, it incorporates Efficient Semantic Context Fusion (ESCF) with spatial-level and class-level sequence reduction strategies. CRM and ESCF result in substantial memory and computational savings without compromising accuracy. Additionally, recognizing the significance of hierarchical semantics extracted from middle-layer features for closed-set semantic segmentation, ERR-Seg introduces the Hierarchical Semantic Module (HSM) to exploit hierarchical semantics in the context of OVSS. Compared to previous state-of-the-art methods under the ADE20K-847 setting, ERR-Seg achieves +$5.6\%$ mIoU improvement and reduces latency by $67.3\%$.
arxiv情報
著者 | Lin Chen,Qi Yang,Kun Ding,Zhihao Li,Gang Shen,Fei Li,Qiyuan Cao,Shiming Xiang |
発行日 | 2025-01-29 13:24:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google