要約
インスタンス セグメンテーション データセットは、正確で堅牢なコンピューター ビジョン モデルをトレーニングする上で重要な役割を果たします。
ただし、高品質のセグメンテーション データセットを作成するために正確なマスク アノテーションを取得するのは、コストと労力がかかるプロセスです。
この研究では、小さなアノテーション付きインスタンス セグメンテーション データセットから始めて、それらを拡張して大きなアノテーション付きデータセットを効果的に取得することで、この問題を軽減する方法を示します。
これは、提供されたマスク アノテーションを保存する方法で、利用可能なアノテーション付きオブジェクト インスタンスのバリエーションを作成することによって実現されます。これにより、新しい画像とマスクのペアがアノテーション付き画像のセットに追加されます。
具体的には、拡散ベースの修復モデルを使用して新しいイメージを生成し、オブジェクトの輪郭を通して拡散を誘導することで、マスクされた領域を目的のオブジェクト クラスで塗りつぶします。
オブジェクト アウトラインは、基礎となる修復モデルに対して、シンプルで信頼性が高く便利なトレーニング不要のガイダンス信号を提供することを示します。このガイダンス信号は、多くの場合、追加のテキスト ガイダンスなしで正しいクラスのオブジェクトでマスクを埋め、オブジェクト間の対応関係を維持するのに十分です。
生成された画像とマスクの注釈は高精度で作成されます。
私たちの実験結果は、私たちの方法がオブジェクト インスタンスの現実的なバリエーションを生成し、拡張領域内に多様性を導入しながら形状の特徴を維持することに成功していることを明らかにしています。
また、提案された方法がテキストガイダンスや他の画像拡張技術と自然に組み合わせることができることも示します。
要約(オリジナル)
Instance segmentation datasets play a crucial role in training accurate and robust computer vision models. However, obtaining accurate mask annotations to produce high-quality segmentation datasets is a costly and labor-intensive process. In this work, we show how this issue can be mitigated by starting with small annotated instance segmentation datasets and augmenting them to effectively obtain a sizeable annotated dataset. We achieve that by creating variations of the available annotated object instances in a way that preserves the provided mask annotations, thereby resulting in new image-mask pairs to be added to the set of annotated images. Specifically, we generate new images using a diffusion-based inpainting model to fill out the masked area with a desired object class by guiding the diffusion through the object outline. We show that the object outline provides a simple, but also reliable and convenient training-free guidance signal for the underlying inpainting model that is often sufficient to fill out the mask with an object of the correct class without further text guidance and preserve the correspondence between generated images and the mask annotations with high precision. Our experimental results reveal that our method successfully generates realistic variations of object instances, preserving their shape characteristics while introducing diversity within the augmented area. We also show that the proposed method can naturally be combined with text guidance and other image augmentation techniques.
arxiv情報
著者 | Markus Pobitzer,Filip Janicki,Mattia Rigotti,Cristiano Malossi |
発行日 | 2024-02-26 09:21:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google