要約
コンピューター ビジョンの基本的なタスクとしてのエッジ検出は、ますます注目を集めています。
ディープラーニングの出現により、この分野は大幅に進歩しました。
ただし、大規模な事前トレーニング済みの重みに依存する最近の深層学習ベースの手法は、最初からトレーニングすることができず、この問題に対処する研究は非常に限られています。
この論文では、画像勾配情報を最新の畳み込み演算と効果的に統合する、新しいサイクルピクセル差分畳み込み (CPDC) を提案します。
CPDC に基づいて、CPD-Net という名前の U 字型エンコーダ/デコーダ モデルを開発します。これは純粋にエンドツーエンドのネットワークです。
さらに、ほとんどの既存の方法で生成されるエッジの厚さの問題に対処するために、モデルの識別能力を強化するマルチスケール情報拡張モジュール (MSEM) を構築し、それによって鮮明できれいな等高線マップを生成します。
3 つの標準ベンチマークで行われた包括的な実験により、BSDS500 データセット (ODS=0.813)、NYUD-V2 (ODS=0.760)、および BIPED データセット (ODS=0.898) で私たちの手法が競争力のあるパフォーマンスを達成できることが実証されました。
私たちのアプローチは、エッジ検出におけるこれらの課題に対処するための新しい視点を提供します。
要約(オリジナル)
Edge detection, as a fundamental task in computer vision, has garnered increasing attention. The advent of deep learning has significantly advanced this field. However, recent deep learning-based methods which rely on large-scale pre-trained weights cannot be trained from scratch, with very limited research addressing this issue. This paper proposes a novel cycle pixel difference convolution (CPDC), which effectively integrates image gradient information with modern convolution operations. Based on the CPDC, we develop a U-shape encoder-decoder model named CPD-Net, which is a purely end-to-end network. Additionally, to address the issue of edge thickness produced by most existing methods, we construct a multi-scale information enhancement module (MSEM) to enhance the discriminative ability of the model, thereby generating crisp and clean contour maps. Comprehensive experiments conducted on three standard benchmarks demonstrate that our method achieves competitive performance on the BSDS500 dataset (ODS=0.813), NYUD-V2 (ODS=0.760), and BIPED dataset (ODS=0.898). Our approach provides a novel perspective for addressing these challenges in edge detection.
arxiv情報
| 著者 | Changsong Liu,Wei Zhang,Yanyan Liu,Mingyang Li,Wenlin Li,Yimeng Fan,Xiangnan Bai,Liang Zhangd |
| 発行日 | 2024-09-06 13:28:05+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google