要約
モデル折りたたみを導入します。これは、層全体で構造的に類似したニューロンをマージする新しいデータフリーモデル圧縮技術であり、微調整やトレーニングデータへのアクセスを必要とせずにモデルサイズを大幅に削減します。
既存の方法とは異なり、モデルの折り畳みは、K-Meansクラスタリングを活用し、変動の崩壊または爆発を防ぐために新しいデータフリーの手法を使用して、圧縮中のデータ統計を保持します。
ResNet18やLlama-7Bを含む標準的なベンチマーク全体の理論的枠組みと実験は、モデルの折り畳みがデータ駆動型の圧縮技術に匹敵するパフォーマンスを達成し、最近提案されたデータフリーの方法、特に高いスパースレベルで優れていることを示しています。
このアプローチは、大規模なモデルを圧縮するために特に効果的であり、リソースに制約のある環境での展開に適しています。
要約(オリジナル)
We introduce model folding, a novel data-free model compression technique that merges structurally similar neurons across layers, significantly reducing the model size without the need for fine-tuning or access to training data. Unlike existing methods, model folding preserves data statistics during compression by leveraging k-means clustering, and using novel data-free techniques to prevent variance collapse or explosion. Our theoretical framework and experiments across standard benchmarks, including ResNet18 and LLaMA-7B, demonstrate that model folding achieves comparable performance to data-driven compression techniques and outperforms recently proposed data-free methods, especially at high sparsity levels. This approach is particularly effective for compressing large-scale models, making it suitable for deployment in resource-constrained environments.
arxiv情報
著者 | Dong Wang,Haris Šikić,Lothar Thiele,Olga Saukh |
発行日 | 2025-02-14 15:10:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google