要約
ストレージの分散化は今日のクラウドの根幹をなすものであり、計算の一部をストレージにプッシュダウンすることにより、ストレージ層と計算層間の潜在的なネットワークボトルネックを緩和することで自然に補完される。我々は、関連するタスクに関する既存の知識を再利用することでMLを民主化する広範な技術である転移学習(Transfer Learning: TL)に注目することで、MLトレーニングがストレージプッシュダウンからどのような恩恵を受けるかを示す。HAPIという新しいTL処理システムを提案する。HAPIは2つの相補的な技術を中心に構成され、ディスアグリゲーションによってもたらされる課題に対処する。第一に、アプリケーションは性能のために階層間の実行バランスを注意深くとらなければならない。HAPIは、特徴抽出フェーズでTL計算を適切に分割することで、ネットワーク時間を改善するだけでなく、階層間で連続したトレーニング反復の実行をオーバーラップさせることで、総TLトレーニング時間も改善するプッシュダウンを実現する。第二に、オペレータはストレージ側の計算リソースからのリソース効率を求めている。HAPIはストレージ側のバッチサイズ・アダプテーションを採用しており、トレーニング精度に影響を与えることなく、ストレージ側のプッシュダウン同時実行を増加させることができる。HAPIは最大2.5倍の訓練スピードアップを実現する一方で、86.8%のケースで最もパフォーマンスの良い分割ポイント、または最も良い分割ポイントから最大5%ずれた分割ポイントを選択する。
要約(オリジナル)
Storage disaggregation underlies today’s cloud and is naturally complemented by pushing down some computation to storage, thus mitigating the potential network bottleneck between the storage and compute tiers. We show how ML training benefits from storage pushdowns by focusing on transfer learning (TL), the widespread technique that democratizes ML by reusing existing knowledge on related tasks. We propose HAPI, a new TL processing system centered around two complementary techniques that address challenges introduced by disaggregation. First, applications must carefully balance execution across tiers for performance. HAPI judiciously splits the TL computation during the feature extraction phase yielding pushdowns that not only improve network time but also improve total TL training time by overlapping the execution of consecutive training iterations across tiers. Second, operators want resource efficiency from the storage-side computational resources. HAPI employs storage-side batch size adaptation allowing increased storage-side pushdown concurrency without affecting training accuracy. HAPI yields up to 2.5x training speed-up while choosing in 86.8% of cases the best performing split point or one that is at most 5% off from the best.
arxiv情報
著者 | Diana Petrescu,Arsany Guirguis,Do Le Quoc,Javier Picorel,Rachid Guerraoui,Florin Dinu |
発行日 | 2024-11-01 13:02:25+00:00 |
arxivサイト | arxiv_id(pdf) |