要約
セマンティック セグメンテーションの進化は、長い間、各ピクセルを分類するためのより識別的な画像表現を学習することによって支配されてきました。
顕著な進歩にもかかわらず、セグメンテーション マスク自体の事前条件 (幾何学的制約や意味論的制約など) はまだ調査が不十分です。
この論文では、最近開発されたノイズ除去拡散生成モデルによって事前にモデル化されたマスクを使用して、既存の識別アプローチのセマンティック セグメンテーションの品質を改善することを提案します。
マスクの事前モデリングに拡散モデルを適応させる統一アーキテクチャから始めて、離散拡散を使用した特定のインスタンス化にこの作業を集中させ、そのアプリケーションを成功させるためのさまざまな重要な設計の選択肢を特定します。
私たちの探索的分析により、次のようないくつかの重要な発見が明らかになりました。(1) 拡散モデルをセマンティック セグメンテーションに単純に統合するだけでは十分ではなく、不適切に設計された拡散プロセスはセグメンテーションのパフォーマンスの低下につながる可能性があります。
(2) トレーニング中は、ノイズの種類よりもノイズが追加されるオブジェクトの方が重要です。
(3) 推論中、厳密な拡散ノイズ除去スキームは必須ではない可能性があり、より効果的に機能するより単純なスキームに緩和することができます。
私たちは、提案された事前モデリングをいくつかの既製のセグメンターで評価し、ADE20K と Cityscapes での実験結果は、私たちのアプローチが競争力のある定量的なパフォーマンスとより魅力的なビジュアル品質を達成できることを示しています。
要約(オリジナル)
The evolution of semantic segmentation has long been dominated by learning more discriminative image representations for classifying each pixel. Despite the prominent advancements, the priors of segmentation masks themselves, e.g., geometric and semantic constraints, are still under-explored. In this paper, we propose to ameliorate the semantic segmentation quality of existing discriminative approaches with a mask prior modeled by a recently-developed denoising diffusion generative model. Beginning with a unified architecture that adapts diffusion models for mask prior modeling, we focus this work on a specific instantiation with discrete diffusion and identify a variety of key design choices for its successful application. Our exploratory analysis revealed several important findings, including: (1) a simple integration of diffusion models into semantic segmentation is not sufficient, and a poorly-designed diffusion process might lead to degradation in segmentation performance; (2) during the training, the object to which noise is added is more important than the type of noise; (3) during the inference, the strict diffusion denoising scheme may not be essential and can be relaxed to a simpler scheme that even works better. We evaluate the proposed prior modeling with several off-the-shelf segmentors, and our experimental results on ADE20K and Cityscapes demonstrate that our approach could achieve competitively quantitative performance and more appealing visual quality.
arxiv情報
著者 | Zeqiang Lai,Yuchen Duan,Jifeng Dai,Ziheng Li,Ying Fu,Hongsheng Li,Yu Qiao,Wenhai Wang |
発行日 | 2023-06-22 10:23:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google