GraVAC: Adaptive Compression for Communication-Efficient Distributed DL Training

要約

分散データ並列 (DDP) トレーニングでは、複数のデバイスがデータのサブセットでトレーニングし、更新を集約してグローバルに共有されるモデルを生成するため、アプリケーション全体のスループットが向上します。
各反復での定期的な同期にはかなりのオーバーヘッドが発生し、最先端のニューラル ネットワークのサイズと複雑さが増大することでさらに悪化します。
多くの勾配圧縮技術は通信コストの削減を提案していますが、最大のスピードアップや最小のデータ交換につながる理想的な圧縮率は、圧縮の品質、モデルのサイズと構造、ハードウェア、ネットワーク トポロジ、帯域幅によって異なるため、依然として解決の余地のない問題です。

我々は、モデルの進行状況を評価し、圧縮に関連する勾配情報損失を評価することで、トレーニング全体を通じて圧縮係数を動的に調整するフレームワークである GraVAC を提案します。
GraVAC は、モデルやそのハイパーパラメータに関する事前の仮定なしでオンラインのブラックボックス方式で動作し、同じ反復/エポック数で高密度 SGD (つまり、圧縮なし) と同等以上の精度を達成します。
静的圧縮係数を使用するのとは対照的に、GraVAC は ResNet101、VGG16、LSTM のエンドツーエンドのトレーニング時間をそれぞれ 4.32 倍、1.95 倍、6.67 倍削減します。
他の適応スキームと比較して、私たちのフレームワークは全体的に 1.94 倍から 5.63 倍の高速化を実現します。

要約(オリジナル)

Distributed data-parallel (DDP) training improves overall application throughput as multiple devices train on a subset of data and aggregate updates to produce a globally shared model. The periodic synchronization at each iteration incurs considerable overhead, exacerbated by the increasing size and complexity of state-of-the-art neural networks. Although many gradient compression techniques propose to reduce communication cost, the ideal compression factor that leads to maximum speedup or minimum data exchange remains an open-ended problem since it varies with the quality of compression, model size and structure, hardware, network topology and bandwidth. We propose GraVAC, a framework to dynamically adjust compression factor throughout training by evaluating model progress and assessing gradient information loss associated with compression. GraVAC works in an online, black-box manner without any prior assumptions about a model or its hyperparameters, while achieving the same or better accuracy than dense SGD (i.e., no compression) in the same number of iterations/epochs. As opposed to using a static compression factor, GraVAC reduces end-to-end training time for ResNet101, VGG16 and LSTM by 4.32x, 1.95x and 6.67x respectively. Compared to other adaptive schemes, our framework provides 1.94x to 5.63x overall speedup.

arxiv情報

著者 Sahil Tyagi,Martin Swany
発行日 2024-01-29 18:15:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク