M3LEO: A Multi-Modal, Multi-Label Earth Observation Dataset Integrating Interferometric SAR and RGB Data

要約

衛星ベースのリモート センシングは、急速に進化する世界で地球規模の課題に対処する方法に革命をもたらしました。
衛星センサーによって毎日大量の地球観測 (EO) データが生成されますが、ML パイプラインで使用するためにこれらの大規模なデータセットを処理することは技術的にも計算的にも困難です。
具体的には、さまざまなタイプの EO データがさまざまなプラットフォームでホストされていることが多く、Python 前処理ツールの可用性も異なります。
さらに、データ ソース間の空間調整やデータのタイル化は、初心者ユーザーにとって大きな技術的ハードルとなる可能性があります。
前処理された EO データセットがいくつか存在しますが、その内容は多くの場合、光学または光学に近い波長のデータに限定されており、夜間や悪天候では効果がありません。
合成開口レーダー (SAR) は、マイクロ波長放射に基づくアクティブ センシング技術であり、実行可能な代替手段を提供します。
しかし、SAR への機械学習の適用は、ML 対応のデータとパイプラインが不足しているため、特に偏光測定、コヒーレンス、干渉測定などの多様な SAR データに対しては制限されています。
M3LEO は、Sentinel-1 から派生した偏光測定、干渉測定、コヒーレンス SAR データと、Sentinel-2 RGB 画像およびモデル評価用の一連のラベル付きタスクを含むマルチモーダル、マルチラベル EO データセットです。
M3LEO の容量は 17.5 TB で、6 つの地理的リージョンにわたる約 1,000 万個のデータ チップが含まれています。
データセットは、Hydra を使用した構成管理を備えた柔軟な PyTorch Lightning フレームワークによって補完されています。
Google Earth Engine などの一般的なプラットフォームで利用可能なデータセットを処理して、フレームワークと統合するためのツールを提供します。
初期実験ではデータとフレームワークの有用性を検証し、SAR 画像には RGB データから抽出できる情報以外の情報が含まれていることを示しました。
データはhuggingface.co/M3LEOにあり、コードはgithub.com/spaceml-org/M3LEOにあります。

要約(オリジナル)

Satellite-based remote sensing has revolutionised the way we address global challenges in a rapidly evolving world. Huge quantities of Earth Observation (EO) data are generated by satellite sensors daily, but processing these large datasets for use in ML pipelines is technically and computationally challenging. Specifically, different types of EO data are often hosted on a variety of platforms, with differing availability for Python preprocessing tools. In addition, spatial alignment across data sources and data tiling can present significant technical hurdles for novice users. While some preprocessed EO datasets exist, their content is often limited to optical or near-optical wavelength data, which is ineffective at night or in adverse weather conditions. Synthetic Aperture Radar (SAR), an active sensing technique based on microwave length radiation, offers a viable alternative. However, the application of machine learning to SAR has been limited due to a lack of ML-ready data and pipelines, particularly for the full diversity of SAR data, including polarimetry, coherence and interferometry. We introduce M3LEO, a multi-modal, multi-label EO dataset that includes polarimetric, interferometric, and coherence SAR data derived from Sentinel-1, alongside Sentinel-2 RGB imagery and a suite of labelled tasks for model evaluation. M3LEO spans 17.5TB and contains approximately 10M data chips across six geographic regions. The dataset is complemented by a flexible PyTorch Lightning framework, with configuration management using Hydra. We provide tools to process any dataset available on popular platforms such as Google Earth Engine for integration with our framework. Initial experiments validate the utility of our data and framework, showing that SAR imagery contains information additional to that extractable from RGB data. Data at huggingface.co/M3LEO, and code at github.com/spaceml-org/M3LEO.

arxiv情報

著者 Matthew J Allen,Francisco Dorr,Joseph Alejandro Gallego Mejia,Laura Martínez-Ferrer,Anna Jungbluth,Freddie Kalaitzis,Raúl Ramos-Pollán
発行日 2024-06-06 16:30:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.4 パーマリンク