E-CRF: Embedded Conditional Random Field for Boundary-caused Class Weights Confusion in Semantic Segmentation

要約

最新のセマンティック セグメンテーション手法は、アーキテクチャ設計、アテンション メカニズムなど、さまざまな方法でセグメンテーション パフォーマンスを改善するために画像特徴表現を調整することに多くの効果をもたらします。しかし、これらの手法のほとんどは、(分類層における) クラスの重みの特殊性を無視しています。
セグメンテーション モデル。
この論文では、多くの隣接する境界ピクセルを共有する傾向があるカテゴリのクラスの重みには識別力がなく、それによってパフォーマンスが制限されることに気付きました。
この問題は、境界によるクラスの重みの混乱 (BCWC) と呼ばれます。
この問題に焦点を当て、E-CRF (Embedded Conditional Random Field) という名前の新しい方法を提案して軽減しようとしています。
E-CRF は、CRF を有機的な全体として CNN ネットワークに革新的に融合し、より効果的なエンドツーエンドの最適化を実現します。
理由は2つあります。
これは、CRF を利用して、同じオブジェクトに属する内部ピクセルの助けを借りて、境界ピクセルの特徴表現を浄化するために、高レベルの特徴のピクセル間を通過するメッセージを導きます。
さらに重要なことは、バックプロパゲーション中にスケールと方向の両方からクラスの重みを最適化できることです。
それを証明するために詳細な理論的分析を行います。
さらに、スーパーピクセルは E-CRF に統合され、より信頼性の高いメッセージ パッシングを行う前にローカル オブジェクトを活用するための補助として機能します。
最後に、提案された方法は、ADE20K、Cityscapes、および Pascal Context データセットで印象的な結果をもたらします。

要約(オリジナル)

Modern semantic segmentation methods devote much effect to adjusting image feature representations to improve the segmentation performance in various ways, such as architecture design, attention mechnism, etc. However, almost all those methods neglect the particularity of class weights (in the classification layer) in segmentation models. In this paper, we notice that the class weights of categories that tend to share many adjacent boundary pixels lack discrimination, thereby limiting the performance. We call this issue Boundary-caused Class Weights Confusion (BCWC). We try to focus on this problem and propose a novel method named Embedded Conditional Random Field (E-CRF) to alleviate it. E-CRF innovatively fuses the CRF into the CNN network as an organic whole for more effective end-to-end optimization. The reasons are two folds. It utilizes CRF to guide the message passing between pixels in high-level features to purify the feature representation of boundary pixels, with the help of inner pixels belonging to the same object. More importantly, it enables optimizing class weights from both scale and direction during backpropagation. We make detailed theoretical analysis to prove it. Besides, superpixel is integrated into E-CRF and served as an auxiliary to exploit the local object prior for more reliable message passing. Finally, our proposed method yields impressive results on ADE20K, Cityscapes, and Pascal Context datasets.

arxiv情報

著者 Jie Zhu,Huabin Huang,Banghuai Li,Leye Wang
発行日 2023-02-13 12:51:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク