DiffusionEdge: Diffusion Probabilistic Model for Crisp Edge Detection

要約

エンコーダ/デコーダ アーキテクチャによって制限されるため、学習ベースのエッジ検出器は通常、正確さと鮮明さの両方を満たすエッジ マップを予測することが困難です。
拡散確率モデル (DPM) の最近の成功により、ノイズ除去プロセスが元の画像サイズに直接適用されるため、拡散確率モデル (DPM) が正確で鮮明なエッジ検出に特に適していることがわかりました。
したがって、一般的なエッジ検出のタスク用に、DiffusionEdge と呼ばれる最初の拡散モデルを提案します。
最終的なパフォーマンスを維持しながら高価な計算リソースを回避するために、潜在空間に DPM を適用し、ピクセル レベルで不確実性を認識する古典的なクロスエントロピー損失を有効にして、蒸留方法で潜在空間のパラメーターを直接最適化します。
また、ノイズ除去プロセスを高速化するために分離アーキテクチャを採用し、特定の周波数の潜在的な特徴を調整するために対応する適応フーリエ フィルターを提案します。
すべての技術設計により、DiffusionEdge は限られたリソースで安定してトレーニングでき、はるかに少ない拡張戦略で鮮明で正確なエッジ マップを予測できます。
4 つのエッジ検出ベンチマークに関する広範な実験により、正確さと鮮明さの両方において DifffusionEdge が優れていることが実証されました。
NYUDv2 データセットでは、2 番目に優れたデータセットと比較して、ODS、OIS (後処理なし)、AC がそれぞれ 30.2%、28.1%、65.1% 増加しました。
コード: https://github.com/GuHuangAI/DiffusionEdge。

要約(オリジナル)

Limited by the encoder-decoder architecture, learning-based edge detectors usually have difficulty predicting edge maps that satisfy both correctness and crispness. With the recent success of the diffusion probabilistic model (DPM), we found it is especially suitable for accurate and crisp edge detection since the denoising process is directly applied to the original image size. Therefore, we propose the first diffusion model for the task of general edge detection, which we call DiffusionEdge. To avoid expensive computational resources while retaining the final performance, we apply DPM in the latent space and enable the classic cross-entropy loss which is uncertainty-aware in pixel level to directly optimize the parameters in latent space in a distillation manner. We also adopt a decoupled architecture to speed up the denoising process and propose a corresponding adaptive Fourier filter to adjust the latent features of specific frequencies. With all the technical designs, DiffusionEdge can be stably trained with limited resources, predicting crisp and accurate edge maps with much fewer augmentation strategies. Extensive experiments on four edge detection benchmarks demonstrate the superiority of DiffusionEdge both in correctness and crispness. On the NYUDv2 dataset, compared to the second best, we increase the ODS, OIS (without post-processing) and AC by 30.2%, 28.1% and 65.1%, respectively. Code: https://github.com/GuHuangAI/DiffusionEdge.

arxiv情報

著者 Yunfan Ye,Kai Xu,Yuhang Huang,Renjiao Yi,Zhiping Cai
発行日 2024-01-09 12:00:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク