要約
この研究では、安定拡散 (SD) とラージ言語モデル (LLM) という 2 つの基礎モデルの連携に基づいて、リアルで多様な気象画像と運転画面画像を生成できる新しいアプローチ、つまり WeatherDG を提案します。
。
具体的には、まずソース データを使用して SD を微調整し、生成されたサンプルのコンテンツとレイアウトを現実世界の運転シナリオに合わせます。
次に、シナリオの説明を強化し、SD がより多様で詳細な画像を自動的に生成できるようにする、LLM に基づく手続き型プロンプト生成方法を提案します。
さらに、ライダーやバイクなどのさまざまな気象条件下で SD が尾クラスの高品質オブジェクトを生成することを奨励する、バランスの取れた生成戦略を導入します。
このセグメンテーション モデルに依存しない方法では、生成された合成データを既存のモデルにさらに適応させることで、既存のモデルの一般化能力を向上させることができます。
3 つの困難なデータセットでの実験により、私たちの方法がターゲット ドメイン上のさまざまな最先端モデルのセグメンテーション パフォーマンスを大幅に向上できることがわかりました。
特に、「Cityscapes to ACDC」の設定では、私たちの方法はベースライン HRDA を mIoU で 13.9% 改善します。
要約(オリジナル)
In this work, we propose a novel approach, namely WeatherDG, that can generate realistic, weather-diverse, and driving-screen images based on the cooperation of two foundation models, i.e, Stable Diffusion (SD) and Large Language Model (LLM). Specifically, we first fine-tune the SD with source data, aligning the content and layout of generated samples with real-world driving scenarios. Then, we propose a procedural prompt generation method based on LLM, which can enrich scenario descriptions and help SD automatically generate more diverse, detailed images. In addition, we introduce a balanced generation strategy, which encourages the SD to generate high-quality objects of tailed classes under various weather conditions, such as riders and motorcycles. This segmentation-model-agnostic method can improve the generalization ability of existing models by additionally adapting them with the generated synthetic data. Experiments on three challenging datasets show that our method can significantly improve the segmentation performance of different state-of-the-art models on target domains. Notably, in the setting of ”Cityscapes to ACDC”, our method improves the baseline HRDA by 13.9% in mIoU.
arxiv情報
著者 | Chenghao Qian,Yuhu Guo,Yuhong Mo,Wenjing Li |
発行日 | 2024-12-30 13:34:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google