Category Feature Transformer for Semantic Segmentation

要約

多段階の特徴の集約がセマンティック セグメンテーションにおいて重要な役割を果たすことが明らかになりました。
特徴の集約にポイント単位の合計や連結を採用したこれまでの方法とは異なり、この研究では、一般的なマルチヘッド アテンション メカニズムを介して、多段階の特徴間のカテゴリの埋め込みと変換のフローを調査するカテゴリ特徴トランスフォーマー (CFT) を提案します。
CFT は、各集約プロセス中に高レベルの特徴から個々のセマンティック カテゴリの統合された特徴の埋め込みを学習し、それらを高解像度の特徴に動的にブロードキャストします。
提案された CFT を典型的な機能ピラミッド構造に統合すると、広範囲のバックボーン ネットワークにわたって優れたパフォーマンスが発揮されます。
私たちは、一般的なセマンティック セグメンテーションのベンチマークについて広範な実験を行っています。
具体的には、提案された CFT は、困難な ADE20K データセットに対するモデル パラメーターと計算を大幅に削減して、説得力のある 55.1% mIoU を取得します。

要約(オリジナル)

Aggregation of multi-stage features has been revealed to play a significant role in semantic segmentation. Unlike previous methods employing point-wise summation or concatenation for feature aggregation, this study proposes the Category Feature Transformer (CFT) that explores the flow of category embedding and transformation among multi-stage features through the prevalent multi-head attention mechanism. CFT learns unified feature embeddings for individual semantic categories from high-level features during each aggregation process and dynamically broadcasts them to high-resolution features. Integrating the proposed CFT into a typical feature pyramid structure exhibits superior performance over a broad range of backbone networks. We conduct extensive experiments on popular semantic segmentation benchmarks. Specifically, the proposed CFT obtains a compelling 55.1% mIoU with greatly reduced model parameters and computations on the challenging ADE20K dataset.

arxiv情報

著者 Quan Tang,Chuanjian Liu,Fagui Liu,Yifan Liu,Jun Jiang,Bowen Zhang,Kai Han,Yunhe Wang
発行日 2023-08-10 13:44:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク