要約
ディープ ラーニング (DL) ジョブは多次元並列処理を使用します。つまり、データ、モデル、パイプライン並列処理を組み合わせて、大規模な GPU クラスターを効率的に使用します。
これにより、ジョブが GPU デバイスのセットに緊密に結合されますが、ジョブではデバイス割り当てが変更される可能性があります。(i) トレーニング中のリソースの弾力性により、デバイスが追加または削除されます。
(ii) ハードウェアのメンテナンスには、別のデバイスへの再展開が必要になる場合があります。
(iii) デバイスの障害により、より少ないデバイスでジョブを実行することになります。
現在の DL フレームワークでは、すでに実行中のジョブの多次元並列処理を効率的かつモデルに依存しない方法で変更できないため、これらのシナリオはサポートされていません。
Tenplex は、ジョブが実行時に GPU 割り当てとジョブ並列処理を変更できるようにする DL フレームワークの状態管理ライブラリです。
Tenplex は、トレーニング中に DL ジョブの状態を並列化可能なテンソル コレクション (PTC) として外部化することでこれを実現します。
DL ジョブの GPU 割り当てが変更されると、Tenplex は PTC を使用して DL ジョブの状態を変換します。データセットの状態については、Tenplex はデータ並列処理の下でそれを再分割し、仮想ファイル システムを通じてワーカーに公開します。
モデルの状態については、Tenplex はそれをパーティション化されたチェックポイントとして取得し、新しい並列化構成を反映するように変換します。
効率性を高めるため、これらの PTC 変換は、デバイスとワーカー間のデータ移動を最小限に抑えながら並行して実行されます。
私たちの実験では、Tenplex により DL ジョブが低いオーバーヘッドで動的並列化をサポートできることがわかりました。
要約(オリジナル)
Deep learning (DL) jobs use multi-dimensional parallelism, i.e they combine data, model, and pipeline parallelism, to use large GPU clusters efficiently. This couples jobs tightly to a set of GPU devices, but jobs may experience changes to the device allocation: (i) resource elasticity during training adds or removes devices; (ii) hardware maintenance may require redeployment on different devices; and (iii) device failures force jobs to run with fewer devices. Current DL frameworks lack support for these scenarios, as they cannot change the multi-dimensional parallelism of an already-running job in an efficient and model-independent way. We describe Tenplex, a state management library for DL frameworks that enables jobs to change the GPU allocation and job parallelism at runtime. Tenplex achieves this by externalizing the DL job state during training as a parallelizable tensor collection (PTC). When the GPU allocation for the DL job changes, Tenplex uses the PTC to transform the DL job state: for the dataset state, Tenplex repartitions it under data parallelism and exposes it to workers through a virtual file system; for the model state, Tenplex obtains it as partitioned checkpoints and transforms them to reflect the new parallelization configuration. For efficiency, these PTC transformations are executed in parallel with a minimum amount of data movement between devices and workers. Our experiments show that Tenplex enables DL jobs to support dynamic parallelization with low overhead.
arxiv情報
著者 | Marcel Wagenländer,Guo Li,Bo Zhao,Luo Mai,Peter Pietzuch |
発行日 | 2023-12-08 17:08:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google