DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control

要約

大規模な事前トレーニング済み潜在拡散モデル (LDM) は、クリエイティブなコンテンツを生成し、数ショットの微調整を通じてユーザー データに特化し、セマンティック マップなどの他のモダリティで出力を調整するという並外れた能力を実証しています。
しかし、これらは、セマンティック セグメンテーションなどの認識スタック内のタスクを改善するためなど、大規模なデータ ジェネレーターとして使用できるでしょうか?
私たちは自動運転の文脈でこの質問を調査し、はっきりと「はい」と答えます。
私たちは、DGInStyle と呼ばれる効率的なデータ生成パイプラインを提案します。
まず、事前トレーニング済み LDM を狭い領域内で意味的に制御された生成に特化する問題を検討します。
第二に、豊富な生成事前分布に学習された意味論的制御を与えるスタイル スワップ手法を提案します。
第三に、支配的なオブジェクトに対する LDM のバイアスを克服するために、多重解像度潜在融合技術を設計します。
DGInStyle を使用して、ストリート シーンの多様なデータセットを生成し、そのデータセットでドメインに依存しないセマンティック セグメンテーション モデルをトレーニングし、複数の一般的な自動運転データセットでモデルを評価します。
私たちのアプローチは、以前の最先端の手法と比較して、いくつかのドメイン汎化手法のパフォーマンスを一貫して向上させています。
ソース コードと生成されたデータセットは https://dginstyle.github.io で入手できます。

要約(オリジナル)

Large, pretrained latent diffusion models (LDMs) have demonstrated an extraordinary ability to generate creative content, specialize to user data through few-shot fine-tuning, and condition their output on other modalities, such as semantic maps. However, are they usable as large-scale data generators, e.g., to improve tasks in the perception stack, like semantic segmentation? We investigate this question in the context of autonomous driving, and answer it with a resounding ‘yes’. We propose an efficient data generation pipeline termed DGInStyle. First, we examine the problem of specializing a pretrained LDM to semantically-controlled generation within a narrow domain. Second, we propose a Style Swap technique to endow the rich generative prior with the learned semantic control. Third, we design a Multi-resolution Latent Fusion technique to overcome the bias of LDMs towards dominant objects. Using DGInStyle, we generate a diverse dataset of street scenes, train a domain-agnostic semantic segmentation model on it, and evaluate the model on multiple popular autonomous driving datasets. Our approach consistently increases the performance of several domain generalization methods compared to the previous state-of-the-art methods. The source code and the generated dataset are available at https://dginstyle.github.io.

arxiv情報

著者 Yuru Jia,Lukas Hoyer,Shengyu Huang,Tianfu Wang,Luc Van Gool,Konrad Schindler,Anton Obukhov
発行日 2024-07-31 13:02:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク