DiffusionSat: A Generative Foundation Model for Satellite Imagery

要約

拡散モデルは、画像、音声、ビデオなどの多くのモダリティで最先端の結果を達成しています。
しかし、既存のモデルは、環境モニタリングや作物収量予測などの重要なアプリケーションで広く使用されているリモート センシング データをサポートするように調整されていません。
衛星画像は自然画像とは大きく異なります。衛星画像はマルチスペクトルであり、時間の経過とともに不規則にサンプリングされる可能性があります。また、Web の画像でトレーニングされた既存の拡散モデルはそれらをサポートしていません。
さらに、リモート センシング データは本質的に時空間的なものであり、キャプションや画像に基づく従来の方法ではサポートされていない条件付き生成タスクが必要です。
この論文では、公的に利用可能な大規模な高解像度リモート センシング データセットのコレクションでトレーニングされた、これまでで最大の生成基盤モデルである DiffusionSat を紹介します。
衛星画像ではテキストベースのキャプションがほとんど利用できないため、地理位置情報などの関連するメタデータを条件付け情報として組み込みます。
私たちの方法は現実的なサンプルを生成し、時間生成、マルチスペクトル入力を与えられた超解像、インペインティングなどの複数の生成タスクを解決するために使用できます。
私たちの方法は衛星画像生成のためのこれまでの最先端の方法よりも優れており、衛星画像のための大規模な $\textit{generative}$ 基盤モデルとしては初めてのものです。

要約(オリジナル)

Diffusion models have achieved state-of-the-art results on many modalities including images, speech, and video. However, existing models are not tailored to support remote sensing data, which is widely used in important applications including environmental monitoring and crop-yield prediction. Satellite images are significantly different from natural images — they can be multi-spectral, irregularly sampled across time — and existing diffusion models trained on images from the Web do not support them. Furthermore, remote sensing data is inherently spatio-temporal, requiring conditional generation tasks not supported by traditional methods based on captions or images. In this paper, we present DiffusionSat, to date the largest generative foundation model trained on a collection of publicly available large, high-resolution remote sensing datasets. As text-based captions are sparsely available for satellite images, we incorporate the associated metadata such as geolocation as conditioning information. Our method produces realistic samples and can be used to solve multiple generative tasks including temporal generation, superresolution given multi-spectral inputs and in-painting. Our method outperforms previous state-of-the-art methods for satellite image generation and is the first large-scale $\textit{generative}$ foundation model for satellite imagery.

arxiv情報

著者 Samar Khanna,Patrick Liu,Linqi Zhou,Chenlin Meng,Robin Rombach,Marshall Burke,David Lobell,Stefano Ermon
発行日 2023-12-06 16:53:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク