要約
近年、効率的なモデルを生成するためのトレーニング後の枝刈りの代替手段として、ダイナミック スパース トレーニング (DST) が登場しました。
原則として、DST ではトレーニング実行全体を通じてスパース性が維持されるため、よりメモリ効率の高いトレーニング プロセスが可能になります。
しかし、現在の DST 実装では、実際にはこれを活用できていません。
疎行列の乗算は GPU での密行列の乗算よりも効率がはるかに低いため、ほとんどの実装では重みをマスキングすることで疎行列をシミュレートします。
この論文では、半構造化スパース トレーニングにおける最近の進歩を利用して、メモリ効率が最重要となる大規模な出力空間を伴う分類の領域に DST を適用します。
おそらく数百万の候補を含むラベル空間では、分類層だけで数ギガバイトのメモリを消費します。
疎進化トレーニング (SET) で更新された密層から固定ファンイン疎層への切り替え。
ただし、特に最大のラベル空間では、トレーニングの収束が大幅に妨げられます。
スパース分類器からデンス テキスト エンコーダーへの勾配フローが不十分なため、適切な入力表現を学習することが困難であることがわかりました。
中間層を採用するか、補助的なトレーニング目標を追加することにより、密なモデルの汎化パフォーマンスのほとんどを回復します。
全体として、私たちは、一般的な DST ベンチマーク データセットとは大幅に異なる、非常に偏ったラベル分布を特徴とする困難な領域における DST の適用可能性と実用的な利点を実証します。これにより、汎用ハードウェア上の数百万のラベルを使用したエンドツーエンドのトレーニングが可能になります。
要約(オリジナル)
In recent years, Dynamic Sparse Training (DST) has emerged as an alternative to post-training pruning for generating efficient models. In principle, DST allows for a more memory efficient training process, as it maintains sparsity throughout the entire training run. However, current DST implementations fail to capitalize on this in practice. Because sparse matrix multiplication is much less efficient than dense matrix multiplication on GPUs, most implementations simulate sparsity by masking weights. In this paper, we leverage recent advances in semi-structured sparse training to apply DST in the domain of classification with large output spaces, where memory-efficiency is paramount. With a label space of possibly millions of candidates, the classification layer alone will consume several gigabytes of memory. Switching from a dense to a fixed fan-in sparse layer updated with sparse evolutionary training (SET); however, severely hampers training convergence, especially at the largest label spaces. We find that poor gradient flow from the sparse classifier to the dense text encoder make it difficult to learn good input representations. By employing an intermediate layer or adding an auxiliary training objective, we recover most of the generalisation performance of the dense model. Overall, we demonstrate the applicability and practical benefits of DST in a challenging domain — characterized by a highly skewed label distribution that differs substantially from typical DST benchmark datasets — which enables end-to-end training with millions of labels on commodity hardware.
arxiv情報
著者 | Nasib Ullah,Erik Schultheis,Mike Lasby,Yani Ioannou,Rohit Babbar |
発行日 | 2024-11-05 15:19:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google