Unsupervised Discovery of Semantic Concepts in Satellite Imagery with Style-based Wavelet-driven Generative Models

要約

近年、Generative Adversarial Networks(GAN)の分野では、特にスタイルベースのアーキテクチャの登場により、モデル化能力とネットワークの解釈可能性の両面において、多くの重要な欠点が解決され、かなりの進歩が見られるようになった。このような改善にもかかわらず、衛星画像の分野でこのようなアプローチを採用することは容易ではありません。生成タスクに使用される一般的なビジョンデータセットは、よく整列され、注釈が付けられており、変動が限られています。一方、衛星画像は、空間的・スペクトル的な変動が大きく、微細な高周波のディテールが存在する。また、衛星画像のアノテーションは面倒であるため、アノテーションが少なく、教師なし学習の開発の動機となる。このような背景のもと、我々は、様々な環境・条件下におけるリアルな衛星画像を、高頻度情報を保持したまま容易に合成できる、スタイルとウェーブレットに基づく事前学習済みGANモデルを初めて提示する。さらに、本ネットワークの中間活性度を分析することで、解釈可能な多数の意味的方向性を発見することができ、いかなる形式の監視も行わずに、高レベルの概念(例えば、都市化)の観点から衛星画像の合成を促進することができることを示す。一連の定性的・定量的実験を通して、下流タスク(例:データ補強)への適合性、合成画像の品質、および未知のデータセットへの汎化能力の観点から、我々のフレームワークの有効性を実証する。

要約(オリジナル)

In recent years, considerable advancements have been made in the area of Generative Adversarial Networks (GANs), particularly with the advent of style-based architectures that address many key shortcomings – both in terms of modeling capabilities and network interpretability. Despite these improvements, the adoption of such approaches in the domain of satellite imagery is not straightforward. Typical vision datasets used in generative tasks are well-aligned and annotated, and exhibit limited variability. In contrast, satellite imagery exhibits great spatial and spectral variability, wide presence of fine, high-frequency details, while the tedious nature of annotating satellite imagery leads to annotation scarcity – further motivating developments in unsupervised learning. In this light, we present the first pre-trained style- and wavelet-based GAN model that can readily synthesize a wide gamut of realistic satellite images in a variety of settings and conditions – while also preserving high-frequency information. Furthermore, we show that by analyzing the intermediate activations of our network, one can discover a multitude of interpretable semantic directions that facilitate the guided synthesis of satellite images in terms of high-level concepts (e.g., urbanization) without using any form of supervision. Via a set of qualitative and quantitative experiments we demonstrate the efficacy of our framework, in terms of suitability for downstream tasks (e.g., data augmentation), quality of synthetic imagery, as well as generalization capabilities to unseen datasets.

arxiv情報

著者 Nikos Kostagiolas,Mihalis A. Nicolaou,Yannis Panagakis
発行日 2022-08-03 14:19:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク