Accelerated Training on Low-Power Edge Devices

要約

これらのデバイスは一般に、特に電力の観点からはリソースが制約しているため、エッジデバイスでのトレーニングはいくつかの課題をもたらします。
デバイスレベルでの最先端の技術は、GPU周波数を減らして電力制約を強制し、トレーニング時間の大幅な増加につながります。
トレーニングを加速するために、デバイスの電源制約を順守しながら、システムとアプリケーションのパラメーター(この場合はGPU頻度とトレーニングタスクのバッチサイズ)を共同で調整することを提案します。
バッチサイズの効率とデバイスプロファイリングの予測を組み合わせて、望ましい最適化を実現する新しい透明な方法論を紹介します。
実際のハードウェアでの評価は、私たちの方法が最新技術に依存する現在のベースラインよりも優れていることを示しており、トレーニング時間を2.4 \ Times $を削減し、結果は非常に近い結果です。
また、測定は、トレーニングプロセスに使用される全体的なエネルギーの大幅な減少を示しています。
これらの利益は、訓練されたモデルのパフォーマンスを減らすことなく達成されます。

要約(オリジナル)

Training on edge devices poses several challenges as these devices are generally resource-constrained, especially in terms of power. State-of-the-art techniques at the device level reduce the GPU frequency to enforce power constraints, leading to a significant increase in training time. To accelerate training, we propose to jointly adjust the system and application parameters (in our case, the GPU frequency and the batch size of the training task) while adhering to the power constraints on devices. We introduce a novel cross-layer methodology that combines predictions of batch size efficiency and device profiling to achieve the desired optimization. Our evaluation on real hardware shows that our method outperforms the current baselines that depend on state of the art techniques, reducing the training time by $2.4\times$ with results very close to optimal. Our measurements also indicate a substantial reduction in the overall energy used for the training process. These gains are achieved without reduction in the performance of the trained model.

arxiv情報

著者 Mohamed Aboelenien Ahmed,Kilian Pfeiffer,Heba Khdr,Osama Abboud,Ramin Khalili,Jörg Henkel
発行日 2025-02-25 16:18:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.OS パーマリンク