MetaEarth: A Generative Foundation Model for Global-Scale Remote Sensing Image Generation

要約

生成基礎モデルの最近の進歩により、自然画像の領域における画像生成の新時代が到来し、アート デザイン、エンターテイメント、環境シミュレーションなどに革命をもたらしました。
高品質のサンプルを生成するにもかかわらず、既存の方法では、限られたスケールでシーンの画像を生成するという制約があります。
この論文では、画像生成をグローバル レベルに拡張することで障壁を打ち破る生成基盤モデルである MetaEarth を紹介し、世界規模の多重解像度、無制限、実質的に無制限のリモート センシング画像の作成を検討します。
MetaEarth では、解像度に応じた自己カスケード生成フレームワークを提案します。これにより、あらゆる地域で幅広い地理的解像度で画像を生成できます。
無制限の任意サイズの画像生成を実現するために、生成条件と初期ノイズを分析することにより、拡散モデルのノイズを除去するための新しいノイズ サンプリング戦略を設計します。
MetaEarth をトレーニングするために、地理情報を含む多重解像度の光学リモート センシング画像で構成される大規模なデータセットを構築します。
実験では、地球規模の画像を生成する際の私たちの方法の強力な機能が実証されました。
さらに、MetaEarth は、下流のタスクに高品質で豊富なトレーニング データを提供できるデータ エンジンとして機能します。
私たちのモデルは、革新的な俯瞰視点から地球のビジュアルをシミュレートすることにより、生成世界モデルを構築するための新たな可能性を開きます。

要約(オリジナル)

The recent advancement of generative foundational models has ushered in a new era of image generation in the realm of natural images, revolutionizing art design, entertainment, environment simulation, and beyond. Despite producing high-quality samples, existing methods are constrained to generating images of scenes at a limited scale. In this paper, we present MetaEarth, a generative foundation model that breaks the barrier by scaling image generation to a global level, exploring the creation of worldwide, multi-resolution, unbounded, and virtually limitless remote sensing images. In MetaEarth, we propose a resolution-guided self-cascading generative framework, which enables the generating of images at any region with a wide range of geographical resolutions. To achieve unbounded and arbitrary-sized image generation, we design a novel noise sampling strategy for denoising diffusion models by analyzing the generation conditions and initial noise. To train MetaEarth, we construct a large dataset comprising multi-resolution optical remote sensing images with geographical information. Experiments have demonstrated the powerful capabilities of our method in generating global-scale images. Additionally, the MetaEarth serves as a data engine that can provide high-quality and rich training data for downstream tasks. Our model opens up new possibilities for constructing generative world models by simulating Earth visuals from an innovative overhead perspective.

arxiv情報

著者 Zhiping Yu,Chenyang Liu,Liqin Liu,Zhenwei Shi,Zhengxia Zou
発行日 2024-05-28 15:27:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク