要約
自己注意ベースの変換モデルは、自然言語処理の分野で大きな成功を収めています。
それらの有効性にもかかわらず、変換器の加速は、二次計算の複雑さと大きな活性化サイズのために困難です。
既存のトランスフォーマー アクセラレータは、トークンのプルーニングを試みてメモリ アクセスを削減しようとしますが、計算オーバーヘッドが高くなります。
さらに、以前の作品は注意操作に関与する大規模な行列を直接操作するため、ハードウェアの使用が制限されます。
これらの課題に対処するために、この作業では新しい動的推論スキームである DynaTran を提案します。DynaTran は、実行時に低いオーバーヘッドでアクティベーションをプルーニングし、効果のない操作の数を大幅に削減します。
これにより、Transformer 推論のスループットが向上します。
さらに、データの再利用を改善するために、さまざまなデータフローと共に変圧器操作の行列をタイル化することを提案し、それにより、より高いエネルギー効率を可能にします。
これらの方法を効果的に実装するために、変圧器用の新しいアクセラレータ アーキテクチャである AccelTran を提案します。
さまざまなモデルとベンチマークを使用した広範な実験により、DynaTran が最先端のトップ k ハードウェア認識プルーニング戦略よりも高い精度を達成しながら、最大 1.2$\times$ 高いスパース性を達成することが実証されています。
私たちが提案するアクセラレーターの 1 つである AccelTran-Edge は、Raspberry Pi デバイスと比較して、93K$\times$ 低いエネルギー要件で 330K$\times$ 高いスループットを達成します。
一方、AccelTran-Server は、最先端のトランスフォーマー コプロセッサである Energon と比較して、5.73$\times$ 高いスループットと 3.69$\times$ 低いエネルギー消費を実現しています。
要約(オリジナル)
Self-attention-based transformer models have achieved tremendous success in the domain of natural language processing. Despite their efficacy, accelerating the transformer is challenging due to its quadratic computational complexity and large activation sizes. Existing transformer accelerators attempt to prune its tokens to reduce memory access, albeit with high compute overheads. Moreover, previous works directly operate on large matrices involved in the attention operation, which limits hardware utilization. In order to address these challenges, this work proposes a novel dynamic inference scheme, DynaTran, which prunes activations at runtime with low overhead, substantially reducing the number of ineffectual operations. This improves the throughput of transformer inference. We further propose tiling the matrices in transformer operations along with diverse dataflows to improve data reuse, thus enabling higher energy efficiency. To effectively implement these methods, we propose AccelTran, a novel accelerator architecture for transformers. Extensive experiments with different models and benchmarks demonstrate that DynaTran achieves higher accuracy than the state-of-the-art top-k hardware-aware pruning strategy while attaining up to 1.2$\times$ higher sparsity. One of our proposed accelerators, AccelTran-Edge, achieves 330K$\times$ higher throughput with 93K$\times$ lower energy requirement when compared to a Raspberry Pi device. On the other hand, AccelTran-Server achieves 5.73$\times$ higher throughput and 3.69$\times$ lower energy consumption compared to the state-of-the-art transformer co-processor, Energon.
arxiv情報
著者 | Shikhar Tuli,Niraj K. Jha |
発行日 | 2023-02-28 16:17:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google