要約
深層学習モデルはますますデータを必要とし、トレーニングに必要なデータセットを収集してコンパイルするために多大なリソースを必要とし、地球観測 (EO) モデルも例外ではありません。
ただし、EO のデータセットの状況は比較的細分化されており、形式やデータ構造が多様であるため相互運用性が困難になっています。
より大規模なデータセットを構築し、労力の重複を最小限に抑える場合は、ユーザーが複数のデータセットを組み合わせてアクセスできるようにする共有フレームワークが必要になります。
ここでは、この拡張可能なフレームワークとして Major TOM (Terrestrial Observation Metaset) を提案します。
主に、グリッド ポイントのセットと、異なるソースを持つ複数のデータセットをマージできるメタデータ構造に基づく地理インデックス システムで構成されます。
この研究では、フレームワークとしての Major TOM の仕様に加えて、地球の地表の大部分をカバーする大規模なオープンアクセス データセット MajorTOM-Core も紹介しています。
このデータセットは、コミュニティにすぐに役立つリソースを提供するだけでなく、Major TOM エコシステムに将来追加するためのテンプレートとしても機能します。
アクセス:https://huggingface.co/Major-TOM
要約(オリジナル)
Deep learning models are increasingly data-hungry, requiring significant resources to collect and compile the datasets needed to train them, with Earth Observation (EO) models being no exception. However, the landscape of datasets in EO is relatively atomised, with interoperability made difficult by diverse formats and data structures. If ever larger datasets are to be built, and duplication of effort minimised, then a shared framework that allows users to combine and access multiple datasets is needed. Here, Major TOM (Terrestrial Observation Metaset) is proposed as this extensible framework. Primarily, it consists of a geographical indexing system based on a set of grid points and a metadata structure that allows multiple datasets with different sources to be merged. Besides the specification of Major TOM as a framework, this work also presents a large, open-access dataset, MajorTOM-Core, which covers the vast majority of the Earth’s land surface. This dataset provides the community with both an immediately useful resource, as well as acting as a template for future additions to the Major TOM ecosystem. Access: https://huggingface.co/Major-TOM
arxiv情報
著者 | Alistair Francis,Mikolaj Czerkawski |
発行日 | 2024-02-19 12:23:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google