要約
地球観測 (EO) の分野では、さまざまなセンサーからの豊富なデータが提供され、自己教師ありマルチモーダル学習を進める絶好の機会となります。
ただし、現在のマルチモーダル EO データセットとモデルは、単一データ型 (単一日付画像または時系列) に焦点を当てているため、表現力が制限されています。
ラベルなしで表現力豊かなマルチモーダル表現を学習するために、複数の EO モダリティ間の空間的調整を利用する新しいアーキテクチャである OmniSat を紹介します。
異なる性質のモダリティを組み合わせる利点を実証するために、2 つの既存のデータセットを新しいモダリティで拡張します。
林業、土地被覆分類、作物マッピングという 3 つの下流タスクで実証されています。
OmniSat は、教師なしの方法で豊富な表現を学習できるため、推論に使用できるモダリティが 1 つだけの場合でも、半教師ありおよび完全教師ありの設定でのパフォーマンスの向上につながります。
コードとデータセットは https://github.com/gastruc/OmniSat で入手できます。
要約(オリジナル)
The field of Earth Observations (EO) offers a wealth of data from diverse sensors, presenting a great opportunity for advancing self-supervised multimodal learning. However, current multimodal EO datasets and models focus on a single data type, either mono-date images or time series, which limits their expressivity. We introduce OmniSat, a novel architecture that exploits the spatial alignment between multiple EO modalities to learn expressive multimodal representations without labels. To demonstrate the advantages of combining modalities of different natures, we augment two existing datasets with new modalities. As demonstrated on three downstream tasks: forestry, land cover classification, and crop mapping. OmniSat can learn rich representations in an unsupervised manner, leading to improved performance in the semi- and fully-supervised settings, even when only one modality is available for inference. The code and dataset are available at https://github.com/gastruc/OmniSat.
arxiv情報
著者 | Guillaume Astruc,Nicolas Gonthier,Clement Mallet,Loic Landrieu |
発行日 | 2024-07-12 16:45:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google