Minimizing Energy Costs in Deep Learning Model Training: The Gaussian Sampling Approach

要約

バックプロパゲーションによる損失勾配の計算は、深層学習 (DL) モデルのトレーニング中にかなりのエネルギーを消費します。
この論文では、バックプロパゲーションに関連する実質的なエネルギー オーバーヘッドを軽減するために DL モデルの勾配を効率的に計算する新しいアプローチを提案します。
DL モデルの過剰パラメータ化の性質とその損失ランドスケープの滑らかさを利用して、ガウス分布から勾配更新をサンプリングするための {\em GradSamp} と呼ばれる方法を提案します。
具体的には、ガウス「ノイズ」を使用して前のエポックからパラメーターを (要素ごとに) 摂動させることにより、特定のエポック (定期的またはランダムに選択) でモデル パラメーターを更新します。
ガウス分布のパラメーターは、前の 2 つのエポックからのモデル パラメーター値間の誤差を使用して推定されます。
{\em GradSamp} は勾配計算を合理化するだけでなく、エポック全体をスキップすることも可能にし、それによって全体の効率を向上させます。
私たちは、画像分類、物体検出、画像セグメンテーションなどのさまざまなコンピューター ビジョン タスクにわたる、標準および非標準の CNN およびトランスフォーマー ベースのモデルの多様なセットにわたって仮説を厳密に検証します。
さらに、ドメイン適応 (DA)、ドメイン一般化 (DG)、フェデレーテッド ラーニング (FL) などの分散型設定などの分散外シナリオにおけるその有効性を調査します。
私たちの実験結果は、パフォーマンスを損なうことなく顕著なエネルギー節約を達成する {\em GradSamp} の有効性を裏付けており、その多用途性と実際の DL アプリケーションにおける潜在的な影響を強調しています。

要約(オリジナル)

Computing the loss gradient via backpropagation consumes considerable energy during deep learning (DL) model training. In this paper, we propose a novel approach to efficiently compute DL models’ gradients to mitigate the substantial energy overhead associated with backpropagation. Exploiting the over-parameterized nature of DL models and the smoothness of their loss landscapes, we propose a method called {\em GradSamp} for sampling gradient updates from a Gaussian distribution. Specifically, we update model parameters at a given epoch (chosen periodically or randomly) by perturbing the parameters (element-wise) from the previous epoch with Gaussian “noise”. The parameters of the Gaussian distribution are estimated using the error between the model parameter values from the two previous epochs. {\em GradSamp} not only streamlines gradient computation but also enables skipping entire epochs, thereby enhancing overall efficiency. We rigorously validate our hypothesis across a diverse set of standard and non-standard CNN and transformer-based models, spanning various computer vision tasks such as image classification, object detection, and image segmentation. Additionally, we explore its efficacy in out-of-distribution scenarios such as Domain Adaptation (DA), Domain Generalization (DG), and decentralized settings like Federated Learning (FL). Our experimental results affirm the effectiveness of {\em GradSamp} in achieving notable energy savings without compromising performance, underscoring its versatility and potential impact in practical DL applications.

arxiv情報

著者 Challapalli Phanindra Revanth,Sumohana S. Channappayya,C Krishna Mohan
発行日 2024-06-11 15:01:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク