要約
高次元コンピューティング(HDC)は、EDGE AIの有望なアプローチとして浮上しており、精度と効率のバランスを提供しています。
ただし、現在のHDCベースのアプリケーションは、多くの場合、高精度モデルやエンコーディングマトリックスに依存して競争力のあるパフォーマンスを実現します。
最近の努力では、精密な削減や剪定などの手法を使用して効率を高めますが、ほとんどの場合、パフォーマンスを維持するために再訓練を必要とし、それらを高価で非現実的にします。
この問題に対処するために、エンドツーエンドのHDCシステムを圧縮することを目的とした新しいトレーニングポストトレーニング圧縮アルゴリズムであるDecomposition-Pruning-Quantization(DPQ-HD)を提案します。
DPQ-HDは、上記の3つの圧縮技術を一意に組み合わせることにより、計算とメモリのオーバーヘッドを減らし、ハードウェアの制約に効率的に適応します。
さらに、コサインの類似性などの類似性スコアを徐々に評価し、早期出口を実行して計算を減らし、精度を維持しながら予測推論を加速するエネルギー効率の高い推論アプローチを導入します。
DPQ-HDは、非圧縮ワークロードと比較して精度が1〜2%低下した画像およびグラフ分類タスクのメモリが最大20〜100倍減少することを実証します。
最後に、DPQ-HDが既存のトレーニング後の圧縮方法を上回り、再トレーニングベースの最先端の技術と同等のパフォーマンスを発揮することを示しています。
要約(オリジナル)
Hyperdimensional Computing (HDC) is emerging as a promising approach for edge AI, offering a balance between accuracy and efficiency. However, current HDC-based applications often rely on high-precision models and/or encoding matrices to achieve competitive performance, which imposes significant computational and memory demands, especially for ultra-low power devices. While recent efforts use techniques like precision reduction and pruning to increase the efficiency, most require retraining to maintain performance, making them expensive and impractical. To address this issue, we propose a novel Post Training Compression algorithm, Decomposition-Pruning-Quantization (DPQ-HD), which aims at compressing the end-to-end HDC system, achieving near floating point performance without the need of retraining. DPQ-HD reduces computational and memory overhead by uniquely combining the above three compression techniques and efficiently adapts to hardware constraints. Additionally, we introduce an energy-efficient inference approach that progressively evaluates similarity scores such as cosine similarity and performs early exit to reduce the computation, accelerating prediction inference while maintaining accuracy. We demonstrate that DPQ-HD achieves up to 20-100x reduction in memory for image and graph classification tasks with only a 1-2% drop in accuracy compared to uncompressed workloads. Lastly, we show that DPQ-HD outperforms the existing post-training compression methods and performs better or at par with retraining-based state-of-the-art techniques, requiring significantly less overall optimization time (up to 100x) and faster inference (up to 56x) on a microcontroller
arxiv情報
著者 | Nilesh Prasad Pandey,Shriniwas Kulkarni,David Wang,Onat Gungor,Flavio Ponzina,Tajana Rosing |
発行日 | 2025-05-08 16:54:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google