Bounding Box-Guided Diffusion for Synthesizing Industrial Images and Segmentation Map

要約

コンピュータービジョン、特に産業用途向けの合成データセット生成は、依然として露出度が低くなっています。
たとえば、産業上の欠陥セグメンテーションには非常に正確なラベルが必要ですが、そのようなデータを取得するには費用がかかり、時間がかかります。
この課題に対処するために、監督を最小限に抑えて高忠実度の産業データセットを生成するための新しい拡散ベースのパイプラインを提案します。
私たちのアプローチは、濃縮境界ボックス表現の拡散モデルを条件として、正確なセグメンテーションマスクを生成し、現実的で正確に局所的な欠陥合成を確保します。
既存のレイアウト条件付き生成方法と比較して、当社のアプローチは欠陥の一貫性と空間精度を改善します。
2つの定量的メトリックを導入して、方法の有効性を評価し、実際のデータと合成データでトレーニングされたダウンストリームセグメンテーションタスクへの影響を評価します。
我々の結果は、拡散ベースの合成が人工産業データと現実世界の産業データのギャップを埋め、より信頼性が高く費用効率の高いセグメンテーションモデルを促進できることを示しています。
このコードは、https://github.com/covisionlab/diffusion_labelingで公開されています。

要約(オリジナル)

Synthetic dataset generation in Computer Vision, particularly for industrial applications, is still underexplored. Industrial defect segmentation, for instance, requires highly accurate labels, yet acquiring such data is costly and time-consuming. To address this challenge, we propose a novel diffusion-based pipeline for generating high-fidelity industrial datasets with minimal supervision. Our approach conditions the diffusion model on enriched bounding box representations to produce precise segmentation masks, ensuring realistic and accurately localized defect synthesis. Compared to existing layout-conditioned generative methods, our approach improves defect consistency and spatial accuracy. We introduce two quantitative metrics to evaluate the effectiveness of our method and assess its impact on a downstream segmentation task trained on real and synthetic data. Our results demonstrate that diffusion-based synthesis can bridge the gap between artificial and real-world industrial data, fostering more reliable and cost-efficient segmentation models. The code is publicly available at https://github.com/covisionlab/diffusion_labeling.

arxiv情報

著者 Alessandro Simoni,Francesco Pelosin
発行日 2025-05-06 15:21:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク