Maestro: Uncovering Low-Rank Structures via Trainable Decomposition

要約

ディープ ニューラル ネットワーク (DNN) は、近年の AI の進歩の大きな原動力となっています。
ただし、これらのモデルは、精度と安全性が高まるにつれてますます大型化しています。
これは、トレーニングにますますコストと時間がかかるようになり、通常はすべてのターゲットに適合する単一のモデルが得られることを意味します。
これを軽減するために、モデルの重みと更新の枝刈り、スパース化、量子化など、さまざまな手法が文献で提案されています。
高い圧縮率を達成する一方で、多くの場合、トレーニング時に大幅な計算オーバーヘッドが発生したり、無視できない精度の低下につながります。
あるいは、因数分解手法が DNN の低ランク圧縮に利用されています。
同様に、そのような手法 (SVD など) は層の大量の反復分解に依存することが多く、DNN などの非線形モデルには最適ではない可能性があります。
私たちは効率的な低ランク モデルの設計をさらに進め、トレーニング可能な低ランク レイヤーのフレームワークである Maestro を提案します。
先験的分解を繰り返し適用する代わりに、低ランクの構造は、低ランクの順序付けされた分解である LoD を通じてトレーニング プロセスに組み込まれます。
これは、分解された DNN 構造にサンプリングによる重要度の順序付けが初めて適用されただけでなく、層の粒度でランクを選択することも可能になります。
私たちの理論的分析は、特殊なケースでは LoD が SVD 分解と PCA を回復することを示しています。
Maestro を DNN に適用すると、パフォーマンスを維持しながらフットプリントの小さいモデルを抽出できます。
同時に、再トレーニングすることなく、さらに制限されたデバイスに展開する際の精度と遅延の間の適切なトレードオフが可能になります。

要約(オリジナル)

Deep Neural Networks (DNNs) have been a large driver for AI breakthroughs in recent years. However, these models have been getting increasingly large as they become more accurate and safe. This means that their training becomes increasingly costly and time-consuming and typically yields a single model to fit all targets. Various techniques have been proposed in the literature to mitigate this, including pruning, sparsification, or quantization of model weights and updates. While achieving high compression rates, they often incur significant computational overheads at training or lead to non-negligible accuracy penalty. Alternatively, factorization methods have been leveraged for low-rank compression of DNNs. Similarly, such techniques (e.g., SVD) frequently rely on heavy iterative decompositions of layers and are potentially sub-optimal for non-linear models, such as DNNs. We take a further step in designing efficient low-rank models and propose Maestro, a framework for trainable low-rank layers. Instead of iteratively applying a priori decompositions, the low-rank structure is baked into the training process through LoD, a low-rank ordered decomposition. Not only is this the first time importance ordering via sampling is applied on the decomposed DNN structure, but it also allows selecting ranks at a layer granularity. Our theoretical analysis demonstrates that in special cases LoD recovers the SVD decomposition and PCA. Applied to DNNs, Maestro enables the extraction of lower footprint models that preserve performance. Simultaneously, it enables the graceful trade-off between accuracy-latency for deployment to even more constrained devices without retraining.

arxiv情報

著者 Samuel Horvath,Stefanos Laskaridis,Shashank Rajput,Hongyi Wang
発行日 2024-06-14 17:40:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク