Free-Mask: A Novel Paradigm of Integration Between the Segmentation Diffusion Model and Image Editing to Improve Segmentation Ability


現在のセマンティック セグメンテーション モデルは通常、手動で注釈を付けた大量のデータを必要とし、このプロセスには時間もリソースも大量にかかります。
あるいは、Midjourney や Stable Diffusion などの高度なテキストから画像へのモデルを活用することが効率的な戦略として浮上しており、手動の注釈の代わりに合成データを自動生成できます。
この制限に対処し、合成データセットの範囲と多様性を拡張するために、セグメンテーション用の拡散モデルと高度な画像編集機能を組み合わせたフレームワーク \textbf{Free-Mask} を提案します。これにより、テキストを介して複数のオブジェクトを画像に統合できます。
私たちの方法は、正確なセグメンテーション マスクを生成しながら、オープンワールド環境を厳密にエミュレートする非常に現実的なデータセットの作成を容易にします。
実験結果は、\textbf{Free-Mask} によって生成された合成データにより、セグメンテーション モデルが、特にゼロショット設定において、実際のデータでトレーニングされたセグメンテーション モデルよりも優れたパフォーマンスを発揮できることを示しています。
特に、\textbf{Free-Mask} は、VOC 2012 ベンチマークのこれまでにないクラスで新しい最先端の結果を達成しました。


Current semantic segmentation models typically require a substantial amount of manually annotated data, a process that is both time-consuming and resource-intensive. Alternatively, leveraging advanced text-to-image models such as Midjourney and Stable Diffusion has emerged as an efficient strategy, enabling the automatic generation of synthetic data in place of manual annotations. However, previous methods have been limited to generating single-instance images, as the generation of multiple instances with Stable Diffusion has proven unstable. To address this limitation and expand the scope and diversity of synthetic datasets, we propose a framework \textbf{Free-Mask} that combines a Diffusion Model for segmentation with advanced image editing capabilities, allowing for the integration of multiple objects into images via text-to-image models. Our method facilitates the creation of highly realistic datasets that closely emulate open-world environments while generating accurate segmentation masks. It reduces the labor associated with manual annotation and also ensures precise mask generation. Experimental results demonstrate that synthetic data generated by \textbf{Free-Mask} enables segmentation models to outperform those trained on real data, especially in zero-shot settings. Notably, \textbf{Free-Mask} achieves new state-of-the-art results on previously unseen classes in the VOC 2012 benchmark.


著者 Bo Gao,Fangxu Xing,Daniel Tang
発行日 2024-12-02 14:42:09+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.AI, cs.CV パーマリンク