要約
リモートセンシングデータへのアクセスが増加し、そのようなデータが大規模な意思決定に情報を提供する可能性があるため、多くの地球観測タスクのためのディープラーニングモデルの開発が推進されている。伝統的に、このようなモデルは大規模なデータセットで学習されなければならない。しかし、データセットが大きければ大きいほど良い結果が得られるという一般的な仮定は、データ分布の複雑さ、バイアスやノイズが混入する可能性、膨大なデータセットの処理と保存に必要な計算リソースを見落としている傾向がある。したがって、効果的な解決策は、データの量と質の両方を考慮する必要がある。本論文では、画像のみ、ラベルのみ、およびそれぞれの組み合わせに依存するリモートセンシング画像セグメンテーションデータセットから、サンプルの重要なサブセットを選択するための6つの新しいコアセット選択手法を提案する。これらの手法を、一般的に使用される3つの土地被覆分類データセットを用いて、ランダム選択のベースラインと比較するベンチマークを行う:DFC2022、Vaihingen、Potsdamである。それぞれのデータセットにおいて、サンプルのサブセットに対する学習がランダムなベースラインを上回り、いくつかのアプローチは利用可能な全てのデータに対する学習を上回ることを示す。この結果は、リモートセンシング領域におけるデータ中心学習の重要性と可能性を示している。コードはhttps://github.com/keillernogueira/data-centric-rs-classification/。
要約(オリジナル)
The increasing accessibility of remotely sensed data and the potential of such data to inform large-scale decision-making has driven the development of deep learning models for many Earth Observation tasks. Traditionally, such models must be trained on large datasets. However, the common assumption that broadly larger datasets lead to better outcomes tends to overlook the complexities of the data distribution, the potential for introducing biases and noise, and the computational resources required for processing and storing vast datasets. Therefore, effective solutions should consider both the quantity and quality of data. In this paper, we propose six novel core-set selection methods for selecting important subsets of samples from remote sensing image segmentation datasets that rely on imagery only, labels only, and a combination of each. We benchmark these approaches against a random-selection baseline on three commonly used land cover classification datasets: DFC2022, Vaihingen, and Potsdam. In each of the datasets, we demonstrate that training on a subset of samples outperforms the random baseline, and some approaches outperform training on all available data. This result shows the importance and potential of data-centric learning for the remote sensing domain. The code is available at https://github.com/keillernogueira/data-centric-rs-classification/.
arxiv情報
| 著者 | Keiller Nogueira,Akram Zaytar,Wanli Ma,Ribana Roscher,Ronny Hänsch,Caleb Robinson,Anthony Ortiz,Simone Nsutezo,Rahul Dodhia,Juan M. Lavista Ferres,Oktay Karakuş,Paul L. Rosin |
| 発行日 | 2025-05-02 12:22:08+00:00 |
| arxivサイト | arxiv_id(pdf) |