A Semantic Space is Worth 256 Language Descriptions: Make Stronger Segmentation Models with Descriptive Properties

要約

このペーパーでは、強力な解釈可能なセグメンテーション モデルを作成するためにプロパティ レベルのラベル空間を使用する新しいアプローチである ProLab を紹介します。
カテゴリ固有の注釈のみに依存する代わりに、ProLab はセグメンテーション モデルを監視するための常識的な知識に基づいた記述プロパティを使用します。
これは 2 つのコア設計に基づいています。
まず、大規模言語モデル (LLM) と慎重に作成されたプロンプトを使用して、意味のある常識知識を伝達し、構造化された形式に従って、関連するすべてのカテゴリの説明を生成します。
第二に、説明全体で意味的相関関係を維持する説明埋め込みモデルを導入し、K 平均法を使用して説明プロパティのセット (例: 256) にクラスタリングします。
これらの特性は、人間の認識理論と一致する、解釈可能な常識的知識に基づいています。
私たちのアプローチにより、5 つの古典的なベンチマーク (ADE20K、COCO-Stuff、Pascal Context、Cityscapes、BDD など) でセグメンテーション モデルのパフォーマンスが向上することが経験的に示されています。
また、私たちの方法は、カテゴリレベルの監視よりもトレーニングステップを拡張した場合の拡張性が優れていることも示しています。
私たちの解釈可能なセグメンテーション フレームワークは、ドメイン内の記述プロパティのみを使用してドメイン外または未知のカテゴリをセグメント化する一般化機能も備えています。
コードは https://github.com/lambert-x/ProLab で入手できます。

要約(オリジナル)

This paper introduces ProLab, a novel approach using property-level label space for creating strong interpretable segmentation models. Instead of relying solely on category-specific annotations, ProLab uses descriptive properties grounded in common sense knowledge for supervising segmentation models. It is based on two core designs. First, we employ Large Language Models (LLMs) and carefully crafted prompts to generate descriptions of all involved categories that carry meaningful common sense knowledge and follow a structured format. Second, we introduce a description embedding model preserving semantic correlation across descriptions and then cluster them into a set of descriptive properties (e.g., 256) using K-Means. These properties are based on interpretable common sense knowledge consistent with theories of human recognition. We empirically show that our approach makes segmentation models perform stronger on five classic benchmarks (e.g., ADE20K, COCO-Stuff, Pascal Context, Cityscapes, and BDD). Our method also shows better scalability with extended training steps than category-level supervision. Our interpretable segmentation framework also emerges with the generalization ability to segment out-of-domain or unknown categories using only in-domain descriptive properties. Code is available at https://github.com/lambert-x/ProLab.

arxiv情報

著者 Junfei Xiao,Ziqi Zhou,Wenxuan Li,Shiyi Lan,Jieru Mei,Zhiding Yu,Alan Yuille,Yuyin Zhou,Cihang Xie
発行日 2024-08-14 04:05:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク