Learning to utilize image second-order derivative information for crisp edge detection

要約

エッジ検出は、コンピューター ビジョンの基本的なタスクです。
ディープ畳み込みニューラル ネットワーク (DCNN) の開発の下で大きな進歩を遂げ、その一部は人間レベルを超えたパフォーマンスを達成しました。
ただし、最近の最高性能のエッジ検出方法は、太くてノイズの多いエッジ ラインを生成する傾向があります。
この研究では、(1) 画像エッジに関する事前知識の欠如、および (2) 不均衡なピクセル分布の問題の 2 つの側面からこの問題を解決します。
我々は、エッジの事前知識を導入することでモデルが真のエッジ ピクセルを正確に特定できるようにする、二次導関数ベースのマルチスケール コンテキスト拡張モジュール (SDMCM) を提案します。
また、不均衡な分布の問題を軽減するために、ハイブリッド焦点損失関数 (HFL) も構築します。
さらに、条件付きパラメータ化畳み込み (CondConv) を使用して、最終出力エッジ マップをさらに洗練できる新しい境界洗練モジュール (BRM) を開発します。
最後に、鮮明なエッジ検出のための SDMCM と BRM に基づく LUS-Net と呼ばれる U 字型ネットワークを提案します。
私たちは 3 つの標準ベンチマークで広範な実験を実行しました。その実験結果は、私たちの方法が鮮明でクリーンなエッジ マップを予測でき、BSDS500 データセット (ODS=0.829)、NYUD-V2 データセット (ODS) で最先端のパフォーマンスを達成できることを示しています。
=0.768)、BIPED データセット (ODS=0.903)。

要約(オリジナル)

Edge detection is a fundamental task in computer vision. It has made great progress under the development of deep convolutional neural networks (DCNNs), some of which have achieved a beyond human-level performance. However, recent top-performing edge detection methods tend to generate thick and noisy edge lines. In this work, we solve this problem from two aspects: (1) the lack of prior knowledge regarding image edges, and (2) the issue of imbalanced pixel distribution. We propose a second-order derivative-based multi-scale contextual enhancement module (SDMCM) to help the model locate true edge pixels accurately by introducing the edge prior knowledge. We also construct a hybrid focal loss function (HFL) to alleviate the imbalanced distribution issue. In addition, we employ the conditionally parameterized convolution (CondConv) to develop a novel boundary refinement module (BRM), which can further refine the final output edge maps. In the end, we propose a U-shape network named LUS-Net which is based on the SDMCM and BRM for crisp edge detection. We perform extensive experiments on three standard benchmarks, and the experiment results illustrate that our method can predict crisp and clean edge maps and achieves state-of-the-art performance on the BSDS500 dataset (ODS=0.829), NYUD-V2 dataset (ODS=0.768), and BIPED dataset (ODS=0.903).

arxiv情報

著者 Changsong Liu,Wei Zhang,Yanyan Liu,Yimeng Fan,Mingyang Li,Wenlin Li
発行日 2024-06-28 14:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク