要約
人工知能(AI)への関心の高まりにより、機械学習のより速い方法(ML)モデルのトレーニングと推論の需要が急増しました。
この速度需要により、分散ワークロードの管理に優れた高性能コンピューティング(HPC)システムの使用が促されました。
データはAIアプリケーションの主要な燃料であるため、HPCシステムのストレージとI/Oサブシステムのパフォーマンスが重要です。
過去に、HPCアプリケーションは、視覚化または分析タスクのために、シミュレーションまたは実験または摂取されたデータによって記述されたデータの大部分にアクセスしました。
MLワークロードは、多数のランダムファイルに広がる小さな読み取りを実行します。
I/Oアクセスパターンのこのシフトは、最新の並列ストレージシステムにいくつかの課題をもたらします。
このホワイトペーパーでは、HPCシステムに関するMLアプリケーションのI/Oを調査し、2019年から2024年までの6年間の時間枠内で文献をターゲットにします。調査の範囲を定義し、MLの一般的な段階の概要を提供し、利用可能なプロファイラーとベンチマークをレビューし、オフラインデータの準備中に遭遇したI/Oパターン、Opected Inpored and explore InのI/Oパターンを調べます。
最近の文献。
最後に、さらにR&Dを生み出す可能性のある研究ギャップを公開しようとしています。
要約(オリジナル)
Growing interest in Artificial Intelligence (AI) has resulted in a surge in demand for faster methods of Machine Learning (ML) model training and inference. This demand for speed has prompted the use of high performance computing (HPC) systems that excel in managing distributed workloads. Because data is the main fuel for AI applications, the performance of the storage and I/O subsystem of HPC systems is critical. In the past, HPC applications accessed large portions of data written by simulations or experiments or ingested data for visualizations or analysis tasks. ML workloads perform small reads spread across a large number of random files. This shift of I/O access patterns poses several challenges to modern parallel storage systems. In this paper, we survey I/O in ML applications on HPC systems, and target literature within a 6-year time window from 2019 to 2024. We define the scope of the survey, provide an overview of the common phases of ML, review available profilers and benchmarks, examine the I/O patterns encountered during offline data preparation, training, and inference, and explore I/O optimizations utilized in modern ML frameworks and proposed in recent literature. Lastly, we seek to expose research gaps that could spawn further R&D.
arxiv情報
著者 | Noah Lewis,Jean Luca Bez,Surendra Byna |
発行日 | 2025-03-07 15:11:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google