Principal Component Clustering for Semantic Segmentation in Synthetic Data Generation

要約

この技術レポートでは、潜在拡散モデルを使用してセマンティック セグメンテーション用の合成データセットを生成する方法の概要を説明します。
私たちのアプローチは、セグメンテーション データで特別にトレーニングされた追加モデルの必要性を排除し、CVPR 2024 ワークショップ チャレンジ「SyntaGen Harnessing Generative Models for Synthetic Visual Datasets」というタイトルの CVPR 2024 ワークショップ チャレンジへの提出の一部です。
私たちの方法論は自己注意を使用して、新しい頭ごとの意味情報の凝縮を促進し、それによって安定拡散潜在からクラスに依存しない画像セグメンテーションを直接取得できるようにします。
さらに、テキストからピクセルへの非プロンプト影響クロスアテンションを採用し、以前に生成されたマスクの分類を容易にします。
最後に、安定拡散による出力画像のみを使用するマスク改良ステップを提案します。

要約(オリジナル)

This technical report outlines our method for generating a synthetic dataset for semantic segmentation using a latent diffusion model. Our approach eliminates the need for additional models specifically trained on segmentation data and is part of our submission to the CVPR 2024 workshop challenge, entitled CVPR 2024 workshop challenge ‘SyntaGen Harnessing Generative Models for Synthetic Visual Datasets’. Our methodology uses self-attentions to facilitate a novel head-wise semantic information condensation, thereby enabling the direct acquisition of class-agnostic image segmentation from the Stable Diffusion latents. Furthermore, we employ non-prompt-influencing cross-attentions from text to pixel, thus facilitating the classification of the previously generated masks. Finally, we propose a mask refinement step by using only the output image by Stable Diffusion.

arxiv情報

著者 Felix Stillger,Frederik Hasecke,Tobias Meisen
発行日 2024-06-25 13:28:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク