要約
複雑なニューラル ネットワークは、精度が高いにもかかわらず、大量の計算リソースを必要とするため、携帯電話や組み込みシステムなど、リソースに制約のあるデバイスへの展開に課題が生じています。
圧縮アルゴリズムは、精度を維持しながらモデルのサイズと計算需要を削減することで、これらの課題に対処するために開発されました。
これらのアプローチの中で、テンソル分解に基づく因数分解手法は理論的に健全で効果的です。
ただし、分解に適切なランクを選択するのは困難です。
この論文では、定義されたランク制約内で複合圧縮損失を採用し、分解と最適なランク選択を同時に適用する統一フレームワークを提示することで、この問題に取り組みます。
私たちのアプローチには、連続空間での自動ランク検索が含まれており、トレーニング データを使用せずに最適なランク構成を効率的に特定し、計算効率を高めます。
その後の微調整ステップと組み合わせることで、私たちのアプローチは、高圧縮モデルのパフォーマンスを元のモデルと同等に維持します。
さまざまなベンチマーク データセットを使用し、包括的な分析を通じて手法の有効性を実証します。
要約(オリジナル)
Despite their high accuracy, complex neural networks demand significant computational resources, posing challenges for deployment on resource-constrained devices such as mobile phones and embedded systems. Compression algorithms have been developed to address these challenges by reducing model size and computational demands while maintaining accuracy. Among these approaches, factorization methods based on tensor decomposition are theoretically sound and effective. However, they face difficulties in selecting the appropriate rank for decomposition. This paper tackles this issue by presenting a unified framework that simultaneously applies decomposition and optimal rank selection, employing a composite compression loss within defined rank constraints. Our approach includes an automatic rank search in a continuous space, efficiently identifying optimal rank configurations without the use of training data, making it computationally efficient. Combined with a subsequent fine-tuning step, our approach maintains the performance of highly compressed models on par with their original counterparts. Using various benchmark datasets, we demonstrate the efficacy of our method through a comprehensive analysis.
arxiv情報
著者 | Ali Aghababaei-Harandi,Massih-Reza Amini |
発行日 | 2024-09-05 14:15:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google