FreeMask: Synthetic Images with Dense Annotations Make Stronger Segmentation Models

要約

セマンティック セグメンテーションは、さまざまな高度なネットワーク アーキテクチャの提案により、目覚ましい進歩を遂げてきました。
しかし、彼らはトレーニングするための繊細なアノテーションを非常に欲しがっており、その取得には手間がかかり、費用もかかりません。
したがって、この研究では、データ収集と注釈手順の両方の負担を軽減するために生成モデルからの合成画像に頼る FreeMask を紹介します。
具体的には、まず、現実的なデータセットによって提供されるセマンティック マスクに基づいて条件付けされた豊富なトレーニング画像を合成します。
これにより、セマンティック セグメンテーション モデル用に、さらによく調整された画像マスク トレーニング ペアが生成されます。
驚くべきことに、合成画像のみを使用してトレーニングしただけで、すでに実際の画像と同等のパフォーマンスを達成していることがわかりました(たとえば、ADE20K では 48.3 対 48.5 mIoU、COCO-Stuff では 49.3 対 50.5)。
次に、実際の画像との共同学習、または実際の画像の事前学習により、合成画像の役割を調査します。
その一方で、誤って合成された領域を抑制するための堅牢なフィルタリング原理を設計します。
さらに、さまざまなセマンティック マスクを不平等に扱い、より難しいマスクを優先し、それらに対応する合成画像をより多くサンプリングすることを提案します。
その結果、フィルター処理および再サンプリングされた合成画像を使用して共同トレーニングまたは事前トレーニングを行うことで、セグメンテーション モデルを大幅に強化できます (ADE20K では 48.7 から 52.0 など)。
コードは https://github.com/LiheYoung/FreeMask で入手できます。

要約(オリジナル)

Semantic segmentation has witnessed tremendous progress due to the proposal of various advanced network architectures. However, they are extremely hungry for delicate annotations to train, and the acquisition is laborious and unaffordable. Therefore, we present FreeMask in this work, which resorts to synthetic images from generative models to ease the burden of both data collection and annotation procedures. Concretely, we first synthesize abundant training images conditioned on the semantic masks provided by realistic datasets. This yields extra well-aligned image-mask training pairs for semantic segmentation models. We surprisingly observe that, solely trained with synthetic images, we already achieve comparable performance with real ones (e.g., 48.3 vs. 48.5 mIoU on ADE20K, and 49.3 vs. 50.5 on COCO-Stuff). Then, we investigate the role of synthetic images by joint training with real images, or pre-training for real images. Meantime, we design a robust filtering principle to suppress incorrectly synthesized regions. In addition, we propose to inequally treat different semantic masks to prioritize those harder ones and sample more corresponding synthetic images for them. As a result, either jointly trained or pre-trained with our filtered and re-sampled synthesized images, segmentation models can be greatly enhanced, e.g., from 48.7 to 52.0 on ADE20K. Code is available at https://github.com/LiheYoung/FreeMask.

arxiv情報

著者 Lihe Yang,Xiaogang Xu,Bingyi Kang,Yinghuan Shi,Hengshuang Zhao
発行日 2023-10-23 17:57:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク