要約
ピクセル機能に加えて「クラスレベル」の情報を利用するOCRやCPNetなどの最近のセグメンテーション方法は、既存のネットワークモジュールの精度を高めるために顕著な成功を収めています。
ただし、抽出されたクラスレベルの情報は、ピクセル表現の学習を向上させるために明示的に利用されることなく、ピクセルの特徴に単純に連結されました。
さらに、これらのアプローチは、エラーが蓄積しやすい粗いマスク予測に基づいてソフトクラスセンターを学習します。
この論文では、クラスレベルの情報をより効果的に使用することを目的として、人間が認識できるという事実に動機付けられた、特徴学習中のクラス内分散とクラス間距離を最適化するためのユニバーサルクラス認識正則化(CAR)アプローチを提案します。
他のどのオブジェクトと一緒に表示されても、オブジェクト自体。
3つの新しい損失関数が提案されています。
最初の損失関数は各クラス内のよりコンパクトなクラス表現を促進し、2番目は異なるクラス中心間の距離を直接最大化し、3番目はクラス間中心とピクセル間の距離をさらに押し上げます。
さらに、私たちのアプローチのクラスセンターは、エラーが発生しやすい粗い予測からではなく、グラウンドトゥルースから直接生成されます。
私たちの方法は、OCRやCPNetなど、トレーニング中にほとんどの既存のセグメンテーションモデルに簡単に適用でき、追加の推論オーバーヘッドなしで精度を大幅に向上させることができます。
複数のベンチマークデータセットで実施された広範な実験とアブレーション研究は、提案されたCARが優れた一般化能力ですべてのベースラインモデルの精度を最大2.23%mIOU向上させることができることを示しています。
完全なコードはhttps://github.com/edwardyehuang/CARで入手できます。
要約(オリジナル)
Recent segmentation methods, such as OCR and CPNet, utilizing ‘class level’ information in addition to pixel features, have achieved notable success for boosting the accuracy of existing network modules. However, the extracted class-level information was simply concatenated to pixel features, without explicitly being exploited for better pixel representation learning. Moreover, these approaches learn soft class centers based on coarse mask prediction, which is prone to error accumulation. In this paper, aiming to use class level information more effectively, we propose a universal Class-Aware Regularization (CAR) approach to optimize the intra-class variance and inter-class distance during feature learning, motivated by the fact that humans can recognize an object by itself no matter which other objects it appears with. Three novel loss functions are proposed. The first loss function encourages more compact class representations within each class, the second directly maximizes the distance between different class centers, and the third further pushes the distance between inter-class centers and pixels. Furthermore, the class center in our approach is directly generated from ground truth instead of from the error-prone coarse prediction. Our method can be easily applied to most existing segmentation models during training, including OCR and CPNet, and can largely improve their accuracy at no additional inference overhead. Extensive experiments and ablation studies conducted on multiple benchmark datasets demonstrate that the proposed CAR can boost the accuracy of all baseline models by up to 2.23% mIOU with superior generalization ability. The complete code is available at https://github.com/edwardyehuang/CAR.
arxiv情報
著者 | Ye Huang,Di Kang,Liang Chen,Xuefei Zhe,Wenjing Jia,Xiangjian He,Linchao Bao |
発行日 | 2022-07-14 17:21:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google