Forget the Data and Fine-Tuning! Just Fold the Network to Compress

要約

モデル折りたたみを導入します。これは、層全体で構造的に類似したニューロンをマージする新しいデータフリーモデル圧縮技術であり、微調整やトレーニングデータへのアクセスを必要とせずにモデルサイズを大幅に削減します。
既存の方法とは異なり、モデルの折り畳みは、K-Meansクラスタリングを活用し、変動の崩壊または爆発を防ぐために新しいデータフリーの手法を使用して、圧縮中のデータ統計を保持します。
ResNet18やLlama-7Bを含む標準的なベンチマーク全体の理論的枠組みと実験は、モデルの折り畳みがデータ駆動型の圧縮技術に匹敵するパフォーマンスを達成し、最近提案されたデータフリーの方法、特に高いスパースレベルで優れていることを示しています。
このアプローチは、大規模なモデルを圧縮するために特に効果的であり、リソースに制約のある環境での展開に適しています。

要約(オリジナル)

We introduce model folding, a novel data-free model compression technique that merges structurally similar neurons across layers, significantly reducing the model size without the need for fine-tuning or access to training data. Unlike existing methods, model folding preserves data statistics during compression by leveraging k-means clustering, and using novel data-free techniques to prevent variance collapse or explosion. Our theoretical framework and experiments across standard benchmarks, including ResNet18 and LLaMA-7B, demonstrate that model folding achieves comparable performance to data-driven compression techniques and outperforms recently proposed data-free methods, especially at high sparsity levels. This approach is particularly effective for compressing large-scale models, making it suitable for deployment in resource-constrained environments.

arxiv情報

著者 Dong Wang,Haris Šikić,Lothar Thiele,Olga Saukh
発行日 2025-02-14 15:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク