要約
ペタバイトスケールの地球観測(EO)データに関するディープラーニングモデルのトレーニングには、コンピューティングリソースをデータストレージから分離する必要があります。
ただし、標準のPytorchデータローダーは、クラウドストレージから直接GeoTiffファイルをストリーミングするときに最新のGPUを利用することはできません。
この作業では、CloudオブジェクトストレージとローカルSSDの両方からスループットをGeotiffのロードパラメーターをベンチマークし、さまざまなローダー構成とデータパラメーターを体系的にテストします。
ベイジアンの最適化を使用して、各ストレージタイプの最適な設定を見つけるために、タイルに並んだ読み取りとワーカースレッドプールに焦点を当てています。
最適化された構成により、リモートデータの読み込みスループットが20倍になり、デフォルト設定と比較してローカルスループットが4x増加します。
3つのパブリックEOベンチマークでは、最適化されたリモートロードでトレーニングされたモデルは、同一の時間予算内でローカルトレーニングと同じ精度を実現します。
検証IOUを6〜15%改善し、標準構成で0〜30%に対して85〜95%のGPU使用率を維持します。
コードはhttps://github.com/microsoft/pytorch-cloud-geotiff-optimizationで公開されています
要約(オリジナル)
Training deep learning models on petabyte-scale Earth observation (EO) data requires separating compute resources from data storage. However, standard PyTorch data loaders cannot keep modern GPUs utilized when streaming GeoTIFF files directly from cloud storage. In this work, we benchmark GeoTIFF loading throughput from both cloud object storage and local SSD, systematically testing different loader configurations and data parameters. We focus on tile-aligned reads and worker thread pools, using Bayesian optimization to find optimal settings for each storage type. Our optimized configurations increase remote data loading throughput by 20x and local throughput by 4x compared to default settings. On three public EO benchmarks, models trained with optimized remote loading achieve the same accuracy as local training within identical time budgets. We improve validation IoU by 6-15% and maintain 85-95% GPU utilization versus 0-30% with standard configurations. Code is publicly available at https://github.com/microsoft/pytorch-cloud-geotiff-optimization
arxiv情報
著者 | Akram Zaytar,Caleb Robinson,Girmaw Abebe Tadesse,Tammy Glazer,Gilles Hacheme,Anthony Ortiz,Rahul M Dodhia,Juan M Lavista Ferres |
発行日 | 2025-06-06 16:54:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google