DDP: Diffusion Model for Dense Visual Prediction

要約

条件付き拡散パイプラインに基づく高密度の視覚的予測のための、シンプルで効率的かつ強力なフレームワークを提案します。
私たちのアプローチは、画像に導かれてランダムなガウス分布からノイズを徐々に除去することにより、予測のための「ノイズからマップへ」生成パラダイムに従います。
DDP と呼ばれるこの方法は、ノイズ除去拡散プロセスを最新の知覚パイプラインに効率的に拡張します。
タスク固有の設計やアーキテクチャのカスタマイズを行わなくても、DDP は最も密度の高い予測タスク (セマンティック セグメンテーションや深度推定など) に簡単に一般化できます。
さらに、DDP は、以前の単一ステップの識別方法とは対照的に、動的推論や不確実性認識などの魅力的な特性を示します。
3 つの代表的なタスクで 6 つの多様なベンチマークを使用して最高の結果を示します。DDP は、専門家のカウンターパートと比較して、各タスクで最先端または競争力のあるパフォーマンスを達成します。
たとえば、セマンティック セグメンテーション (Cityscapes で 83.9 mIoU)、BEV マップ セグメンテーション (nuScenes で 70.6 mIoU)、深度推定 (KITTI で 0.05 REL) などです。
私たちのアプローチが確かなベースラインとして役立ち、将来の研究を促進することを願っています

要約(オリジナル)

We propose a simple, efficient, yet powerful framework for dense visual predictions based on the conditional diffusion pipeline. Our approach follows a ‘noise-to-map’ generative paradigm for prediction by progressively removing noise from a random Gaussian distribution, guided by the image. The method, called DDP, efficiently extends the denoising diffusion process into the modern perception pipeline. Without task-specific design and architecture customization, DDP is easy to generalize to most dense prediction tasks, e.g., semantic segmentation and depth estimation. In addition, DDP shows attractive properties such as dynamic inference and uncertainty awareness, in contrast to previous single-step discriminative methods. We show top results on three representative tasks with six diverse benchmarks, without tricks, DDP achieves state-of-the-art or competitive performance on each task compared to the specialist counterparts. For example, semantic segmentation (83.9 mIoU on Cityscapes), BEV map segmentation (70.6 mIoU on nuScenes), and depth estimation (0.05 REL on KITTI). We hope that our approach will serve as a solid baseline and facilitate future research

arxiv情報

著者 Yuanfeng Ji,Zhe Chen,Enze Xie,Lanqing Hong,Xihui Liu,Zhaoqiang Liu,Tong Lu,Zhenguo Li,Ping Luo
発行日 2023-03-30 17:26:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク