SegRefiner: Towards Model-Agnostic Segmentation Refinement with Discrete Diffusion Process

要約

この論文では、さまざまなセグメンテーション モデルによって生成されるオブジェクト マスクの品質を向上させる主な方法を検討します。
我々は、SegRefiner と呼ばれるモデルに依存しないソリューションを提案します。これは、セグメンテーションのリファインメントをデータ生成プロセスとして解釈することで、この問題に対する新しい視点を提供します。
その結果、一連のノイズ除去拡散ステップを通じてリファインメントプロセスをスムーズに実行できます。
具体的には、SegRefiner は粗いマスクを入力として受け取り、離散拡散プロセスを使用してそれらを精製します。
SegRefiner は、各ピクセルのラベルと対応する状態遷移確率を予測することにより、条件付きノイズ除去方式でノイズの多いマスクを段階的に洗練させます。
SegRefiner の有効性を評価するために、セマンティック セグメンテーション、インスタンス セグメンテーション、二分画像セグメンテーションなどのさまざまなセグメンテーション タスクに関する包括的な実験を実施します。
この結果は、当社の SegRefiner がさまざまな側面から優れていることを示しています。
まず、さまざまなタイプの粗いマスクにわたって、セグメンテーション メトリックと境界メトリックの両方が一貫して改善されます。
第 2 に、以前のモデルに依存しないリファインメント手法よりも大幅に優れたパフォーマンスを発揮します。
最後に、高解像度画像を調整する際に、非常に細かいディテールをキャプチャする強力な機能を発揮します。
ソース コードとトレーニング済みモデルは、https://github.com/MengyuWang826/SegRefiner で入手できます。

要約(オリジナル)

In this paper, we explore a principal way to enhance the quality of object masks produced by different segmentation models. We propose a model-agnostic solution called SegRefiner, which offers a novel perspective on this problem by interpreting segmentation refinement as a data generation process. As a result, the refinement process can be smoothly implemented through a series of denoising diffusion steps. Specifically, SegRefiner takes coarse masks as inputs and refines them using a discrete diffusion process. By predicting the label and corresponding states-transition probabilities for each pixel, SegRefiner progressively refines the noisy masks in a conditional denoising manner. To assess the effectiveness of SegRefiner, we conduct comprehensive experiments on various segmentation tasks, including semantic segmentation, instance segmentation, and dichotomous image segmentation. The results demonstrate the superiority of our SegRefiner from multiple aspects. Firstly, it consistently improves both the segmentation metrics and boundary metrics across different types of coarse masks. Secondly, it outperforms previous model-agnostic refinement methods by a significant margin. Lastly, it exhibits a strong capability to capture extremely fine details when refining high-resolution images. The source code and trained models are available at https://github.com/MengyuWang826/SegRefiner.

arxiv情報

著者 Mengyu Wang,Henghui Ding,Jun Hao Liew,Jiajun Liu,Yao Zhao,Yunchao Wei
発行日 2023-12-19 18:53:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク