要約
最近、深層学習は、特に大規模言語モデルや確率的拡散モデルなどの生成モデリングで目覚ましい進歩を遂げています。
ただし、これらのモデルのトレーニングには多くの場合、数十億ペタフロップを必要とする大量の計算リソースが必要になります。
この大量の資源消費により、大量のエネルギーが使用され、二酸化炭素排出量が大きくなり、環境に関する重大な懸念が生じます。
逆伝播 (BP) は、深層学習モデルのトレーニング中の計算コストの主な原因です。
エネルギー効率の高いトレーニングに関する研究を進め、あらゆるマシンやデバイスでのスパース学習を可能にするために、私たちはあらゆる深層学習アーキテクチャにシームレスに統合できる、エネルギー効率の高い一般的な畳み込みモジュールを提案します。
具体的には、BP が高密度で非効率であることが多く、過剰適合や高い計算消費量につながる可能性があるという前提に基づいて、バックワード中に追加の勾配選択スケジューラを使用してチャネルごとのスパース性を導入します。
私たちの実験では、このアプローチが計算量を 40% 削減しながら、モデルのパフォーマンスを向上させる可能性があることを示しており、画像の分類と生成のタスクで検証されています。
この削減により、大規模 AI システムの研究開発段階で大幅なエネルギー節約と二酸化炭素排出量の削減につながる可能性があります。
さらに、私たちの方法はドロップアウトとは異なる方法でオーバーフィッティングを軽減し、ドロップアウトと組み合わせてモデルのパフォーマンスをさらに強化し、計算リソースの使用量を削減することができます。
広範な実験により、私たちの手法がさまざまなデータセットやタスクに一般化され、幅広い深層学習アーキテクチャやモジュールと互換性があることが検証されています。
コードは https://github.com/lujiazho/ssProp で公開されています。
要約(オリジナル)
Recently, deep learning has made remarkable strides, especially with generative modeling, such as large language models and probabilistic diffusion models. However, training these models often involves significant computational resources, requiring billions of petaFLOPs. This high resource consumption results in substantial energy usage and a large carbon footprint, raising critical environmental concerns. Back-propagation (BP) is a major source of computational expense during training deep learning models. To advance research on energy-efficient training and allow for sparse learning on any machine and device, we propose a general, energy-efficient convolution module that can be seamlessly integrated into any deep learning architecture. Specifically, we introduce channel-wise sparsity with additional gradient selection schedulers during backward based on the assumption that BP is often dense and inefficient, which can lead to over-fitting and high computational consumption. Our experiments demonstrate that our approach reduces 40\% computations while potentially improving model performance, validated on image classification and generation tasks. This reduction can lead to significant energy savings and a lower carbon footprint during the research and development phases of large-scale AI systems. Additionally, our method mitigates over-fitting in a manner distinct from Dropout, allowing it to be combined with Dropout to further enhance model performance and reduce computational resource usage. Extensive experiments validate that our method generalizes to a variety of datasets and tasks and is compatible with a wide range of deep learning architectures and modules. Code is publicly available at https://github.com/lujiazho/ssProp.
arxiv情報
著者 | Lujia Zhong,Shuo Huang,Yonggang Shi |
発行日 | 2024-08-22 17:22:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google