UnifiedNN: Efficient Neural Network Training on the Cloud

要約

今日では、ローカルでニューラルネットワーク(NN)モデルをトレーニングする従来のアプローチよりも、クラウドベースのサービスが広く支持されている。多くの場合、クラウドサービスはユーザーからの複数のリクエストを処理し、複数のNNモデルを同時にトレーニングする。しかし、NNモデルを同時にトレーニングすることは困難なプロセスであり、通常、利用可能な大量のコンピューティングリソースを必要とし、完了するまでに長い時間がかかる。本稿では、クラウド上で複数のNNモデルを効率的に同時訓練するためのUnifiedNNを紹介する。UnifiedNNは複数のNNモデルを効果的に「結合」し、訓練プロセスの精度に影響を与えることなく複数のNNモデルを同時に訓練するための、いくつかのメモリと時間の節約メカニズムを特徴とする。具体的には、UnifiedNNは複数のNNモデルを統合し、一度にすべてのモデルを効率的に訓練するために、大きな単一の統一モデルを作成する。我々はPyTorchでUnifiedNNのプロトタイプを実装し、関連する最先端のフレームワークとその性能を比較した。我々の実験結果は、UnifiedNNがモデルの学習とテストの精度に影響を与えることなく、PyTorchと比較してメモリ消費量を最大53%削減し、学習時間を最大81%削減できることを示している。最後に、複数のモデルを同時に学習する場合、UnifiedNNは最先端のフレームワークと比較して、メモリ消費量を最大52%削減し、学習時間を最大41%削減できることが示されました。

要約(オリジナル)

Nowadays, cloud-based services are widely favored over the traditional approach of locally training a Neural Network (NN) model. Oftentimes, a cloud service processes multiple requests from users–thus training multiple NN models concurrently. However, training NN models concurrently is a challenging process, which typically requires significant amounts of available computing resources and takes a long time to complete. In this paper, we present UnifiedNN to effectively train multiple NN models concurrently on the cloud. UnifiedNN effectively ‘combines’ multiple NN models and features several memory and time conservation mechanisms to train multiple NN models simultaneously without impacting the accuracy of the training process. Specifically, UnifiedNN merges multiple NN models and creates a large singular unified model in order to efficiently train all models at once. We have implemented a prototype of UnifiedNN in PyTorch and we have compared its performance with relevant state-of-the-art frameworks. Our experimental results demonstrate that UnifiedNN can reduce memory consumption by up to 53% and training time by up to 81% when compared with vanilla PyTorch without impacting the model training and testing accuracy. Finally, our results indicate that UnifiedNN can reduce memory consumption by up to 52% and training time by up to 41% when compared to state-of-the-art frameworks when training multiple models concurrently.

arxiv情報

著者 Sifat Ut Taki,Spyridon Mastorakis,Arthi Padmanabhan
発行日 2024-08-02 15:29:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク