Cycle Pixel Difference Network for Crisp Edge Detection

要約

コンピューター ビジョンの基本的なタスクとしてのエッジ検出は、ますます注目を集めています。
ディープラーニングの出現により、この分野は大幅に進歩しました。
しかし、最近の深層学習ベースの手法は一般に、1) 大規模な事前トレーニングされた重みへの依存、2) 厚いエッジの生成という 2 つの重大な問題に直面しています。
私たちは、これら 2 つの問題に同時に対処する CPD-Net という名前の U 字型エンコーダ/デコーダ モデルを構築します。
問題 1) に応えて、我々は新しいサイクル ピクセル差分コンボリューション (CPDC) を提案します。これは、エッジの事前知識と最新のコンボリューション演算を効果的に統合し、その結果、大規模な事前トレーニングされた重みへの依存を排除​​することに成功します。
課題 2) に関しては、マルチスケール情報拡張モジュール (MSEM) とデュアル残差接続ベース (DRC) デコーダーを構築して、モデルのエッジ位置特定能力を強化し、それによって鮮明できれいな等高線マップを生成します。
4 つの標準ベンチマークで行われた包括的な実験により、BSDS500 データセット (ODS=0.813 および AC=0.352)、NYUD-V2 (ODS=0.760 および AC=0.223)、BIPED データセット (ODS=0.898 および AC=
0.426)、および CID (ODS=0.59)。
私たちのアプローチは、エッジ検出におけるこれらの課題に対処するための新しい視点を提供します。

要約(オリジナル)

Edge detection, as a fundamental task in computer vision, has garnered increasing attention. The advent of deep learning has significantly advanced this field. However, recent deep learning-based methods generally face two significant issues: 1) reliance on large-scale pre-trained weights, and 2) generation of thick edges. We construct a U-shape encoder-decoder model named CPD-Net that successfully addresses these two issues simultaneously. In response to issue 1), we propose a novel cycle pixel difference convolution (CPDC), which effectively integrates edge prior knowledge with modern convolution operations, consequently successfully eliminating the dependence on large-scale pre-trained weights. As for issue 2), we construct a multi-scale information enhancement module (MSEM) and a dual residual connection-based (DRC) decoder to enhance the edge location ability of the model, thereby generating crisp and clean contour maps. Comprehensive experiments conducted on four standard benchmarks demonstrate that our method achieves competitive performance on the BSDS500 dataset (ODS=0.813 and AC=0.352), NYUD-V2 (ODS=0.760 and AC=0.223), BIPED dataset (ODS=0.898 and AC=0.426), and CID (ODS=0.59). Our approach provides a novel perspective for addressing these challenges in edge detection.

arxiv情報

著者 Changsong Liu,Wei Zhang,Yanyan Liu,Mingyang Li,Wenlin Li,Yimeng Fan,Xiangnan Bai,Liang Zhang
発行日 2024-12-19 15:02:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク