L3: Accelerator-Friendly Lossless Image Format for High-Resolution, High-Throughput DNN Training

要約

ディープ ニューラル ネットワーク (DNN) のトレーニング プロセスは、通常、CPU でのデータ準備の段階でパイプライン処理され、続いて GPU などのアクセラレータで勾配計算が行われます。
理想的なパイプラインでは、エンドツーエンドのトレーニング スループットは、データ準備のスループットではなく、アクセラレータのスループットによって最終的に制限されます。
これまで、DNN トレーニング パイプラインは、JPEG のような軽量で損失の多い画像形式でエンコードされたデータセットを利用することで、ほぼ最適なスループットを達成していました。
ただし、高解像度でロスレスにエンコードされたデータセットが、高精度を必要とするアプリケーションでより一般的になるにつれて、CPU での低スループットの画像デコードにより、データ準備段階でパフォーマンスの問題が発生します。
したがって、高解像度、高スループットの DNN トレーニング用のカスタムの軽量で可逆的な画像形式である L3 を提案します。
L3 のデコード プロセスはアクセラレータ上で効果的に並列化されるため、DNN トレーニング中のデータ準備のための CPU 介入が最小限に抑えられます。
L3 は、NVIDIA A100 GPU の Cityscapes データセットに対して、最も一般的なロスレス画像形式である PNG よりも 9.29 倍高いデータ準備スループットを達成し、1.71 倍高いエンドツーエンドのトレーニング スループットにつながります。
2 つの一般的な非可逆画像形式である JPEG と WebP と比較すると、L3 は同等のメトリック パフォーマンスで、ImageNet のエンドツーエンド トレーニング スループットをそれぞれ最大 1.77 倍および 2.87 倍向上させます。

要約(オリジナル)

The training process of deep neural networks (DNNs) is usually pipelined with stages for data preparation on CPUs followed by gradient computation on accelerators like GPUs. In an ideal pipeline, the end-to-end training throughput is eventually limited by the throughput of the accelerator, not by that of data preparation. In the past, the DNN training pipeline achieved a near-optimal throughput by utilizing datasets encoded with a lightweight, lossy image format like JPEG. However, as high-resolution, losslessly-encoded datasets become more popular for applications requiring high accuracy, a performance problem arises in the data preparation stage due to low-throughput image decoding on the CPU. Thus, we propose L3, a custom lightweight, lossless image format for high-resolution, high-throughput DNN training. The decoding process of L3 is effectively parallelized on the accelerator, thus minimizing CPU intervention for data preparation during DNN training. L3 achieves a 9.29x higher data preparation throughput than PNG, the most popular lossless image format, for the Cityscapes dataset on NVIDIA A100 GPU, which leads to 1.71x higher end-to-end training throughput. Compared to JPEG and WebP, two popular lossy image formats, L3 provides up to 1.77x and 2.87x higher end-to-end training throughput for ImageNet, respectively, at equivalent metric performance.

arxiv情報

著者 Jonghyun Bae,Woohyeon Baek,Tae Jun Ham,Jae W. Lee
発行日 2022-08-18 08:53:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク