SegGen: Supercharging Segmentation Models with Text2Mask and Mask2Img Synthesis

要約

我々は、最新のセグメンテーションモデルの性能限界を大幅に押し上げる、画像セグメンテーションのための非常に効果的な学習データ生成手法であるSegGenを提案する。SegGenは2つのデータ生成戦略を設計し、統合する:(i)MaskSynは、我々が提案するテキスト-マスク生成モデルとマスク-画像生成モデルを用いて新しいマスク-画像のペアを合成し、モデル監視のためのセグメンテーションマスクの多様性を大幅に改善する。競争の激しいADE20KとCOCOベンチマークにおいて、我々のデータ生成手法は、セマンティックセグメンテーション、パノプティックセグメンテーション、インスタンスセグメンテーションにおいて、最先端のセグメンテーションモデルの性能を著しく向上させる。特にADE20KのmIoUに関しては、Mask2Former R50が47.2から49.9 (+2.7)へと大幅に向上し、Mask2Former Swin-Lも56.1から57.4 (+1.3)へと大幅に向上した。Mask2FormerのSwin-Lも56.1→57.4(+1.3)と大幅に増加した。さらに、我々の合成データを用いた訓練は、セグメンテーションモデルを未知のドメインに対してより頑健にする。プロジェクトウェブサイト: https://seggenerator.github.io

要約(オリジナル)

We propose SegGen, a highly-effective training data generation method for image segmentation, which pushes the performance limits of state-of-the-art segmentation models to a significant extent. SegGen designs and integrates two data generation strategies: MaskSyn and ImgSyn. (i) MaskSyn synthesizes new mask-image pairs via our proposed text-to-mask generation model and mask-to-image generation model, greatly improving the diversity in segmentation masks for model supervision; (ii) ImgSyn synthesizes new images based on existing masks using the mask-to-image generation model, strongly improving image diversity for model inputs. On the highly competitive ADE20K and COCO benchmarks, our data generation method markedly improves the performance of state-of-the-art segmentation models in semantic segmentation, panoptic segmentation, and instance segmentation. Notably, in terms of the ADE20K mIoU, Mask2Former R50 is largely boosted from 47.2 to 49.9 (+2.7); Mask2Former Swin-L is also significantly increased from 56.1 to 57.4 (+1.3). These promising results strongly suggest the effectiveness of our SegGen even when abundant human-annotated training data is utilized. Moreover, training with our synthetic data makes the segmentation models more robust towards unseen domains. Project website: https://seggenerator.github.io

arxiv情報

著者 Hanrong Ye,Jason Kuen,Qing Liu,Zhe Lin,Brian Price,Dan Xu
発行日 2023-11-06 18:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク